世界 变化 如 此 之 快 。 在 AlphaGo 了 刚刚 约 战 李 世 石 的 去 年 春天 ， 还 看 妨 有 业界 同好 一 边 大 肆 赞 扬 VxRAIL， 一 边 不 无 遗 ? 说 
VSAN 还 不 像 友 商 那样 可 以 支持 去 重 和 压缩 。 转 眼 VSAN 6.2 束 友 布 了 ， 它 不 仅 市 来 了 去 重 和 压缩 ， 还 有 RAID5/6 的 全 新 设置 和 
全 新 的 延伸 群集 。 


而 本 书 原 书 第 2 版 的 翻译 ， 也 到 了 升级 版 的 AlphaGo 2.0 大 胜 柯 洁 时 才 算 完成 。 今 日 的 AlphaGo 早 已 脱胎 换 骨 ，VSAN 亦 是 
如 此 。 写 作 人 至 此 时 ，VSAN 6.6 版 已 然 友 布 ， 市 来 了 23 个 新 特性 和 更 多 安全 与 性 能 方面 的 升级 。 不 过 ， 基 本 原理 和 6.2 版 相 比 并 没 
有 太 多 变化 。 而 本 书 是 原 书 第 2 版 ,与 随 着 VSAN 1.0 出 版 的 原 书 第 1 版 相 比 ， 大 量 的 内 容 补 更 新 甚至 完全 重 写 ， 可 以 说 也 是 一 次 
脱胎 换 骨 。 


希望 本 书 能 给 大 家 在 设计 、 部 署 、 管 理 VSAN 环 境 和 对 VSAN 进 行 排 错时 带 来 一 些 帮 助 。 
徐 烟 


2017 年 5 月 
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高 效 的 协议 诸如 RDMA 和 NVMe 减 少 了 对 CPU 消 耗 的 需求 ， 而 这 正 是 限制 新 兴 的 存储 和 网 络 技 术 能 力 的 因素 。 与 此 同时 ，CPU 
密度 正 以 每 年 翻 一 瘟 的 速度 及 展 着 。 


带 着 对 这 种 技术 趋势 的 预测 ， 我 和 一 群 杰出 的 工程 师 一 起 于 2010 年 开始 了 VSAN 项 目 。 我 们 意识 到 商用 服务 器 已 经 具有 足够 
的 能 力 来 接管 诸如 仓 储 和 了 网络 这 种 传统 上 需要 由 专用 硬件 设备 来 处 理 的 服务 。 我 们 总得 运行 在 通用 (商用 ) 服务 器 上 的 软件 也 是 
一 种 可 行 的 方法 。 们 日 来 涡 ， 技 术 革 新 使 得 企业 级 存储 和 网 络 的 大 众 化 成 为 可 能 。 客 尸 得 以 借 “ 软 件 定义 的 架构 ”之 东风 获得 巨 
大 的 收益 一 一 低 成 本 、 更 多 的 硬件 选择 ， 而 且 如 果 选 对 了 工具 ， 残 可 以 用 一 种 统一 的 方法 来 管理 所 有 的 基础 染 构 : 计算 、 人 存储 
和 网 络 。 


复杂 的 操作 和 可 扩展 性 的 挑战 一 直 是 虚拟 化 采纳 者 的 最 大 的 痛 点 之 一 。 因 此 ， 在 我 们 专注 于 软件 定义 的 存储 的 同时 ， 一 个 叫 
做 Martin Casado 的 小 有 名气 的 斯 坦 福 毕 业 生 正在 捣 鼓 软件 定义 的 网 络 。 


时 钟 快 进 到 2016 年 3 月 ，VMware 的 VSAN 友 布 了 其 第 4 个 版 本 (版 本 6.2) ， 也 是 其 自 2014 年 3 月 初次 登场 以 来 最 重要 的 一 
个 版 本 。VSAN 带 着 数据 完整 性 、 可 用 性 和 空间 效率 性 等 新 功能 华丽 登场 ， 在 这 个 最 成 熟 的 存储 市 场 再 次 做 到 了 一 览 众 山 小 。 结 
合 了 通用 硬件 的 实惠 和 软件 栈 的 弹性 与 高 效 ，VMware 使 得 全 闪存 存储 成 为 一 种 既 负担 得 起 又 广泛 适用 于 大 量 用 户 场景 的 产品 。 
成 干 上 万 的 企业 客户 将 VSAN 运 用 到 自己 的 关键 业务 中 ， 从 医院 到 流行 的 电子 商务 平台 ， 从 石油 钻井 到 航空 母 舰 ，VSAN 真 正 称 
得 上 是 经 过 了 和 干 锤 百 炼 。 我 们 为 之 自豪 ! 


不 过 ， 如 果 只 关注 于 VSAN 的 这 些 令 人 赞叹 的 存储 特性 ， 我 们 残 会 错过 另 一 个 重点 : 其 市 来 的 管理 沁 式 。 从 现在 的 撤 术 实 例 


来 说 ，VSAN 被 设计 成 为 一 种 完美 的 超 融 合 基 础 架构 (HCI) 的 存储 平台 。HCI 最 重要 的 优点 就 在 于 其 简单 的 操作 模式 ， 使 客户 
用 一 个 简单 的 工具 束 得 以 管理 整个 IT 基 础 架构 。 在 VMware 产 品 线 中 ， 甚 至 于 在 整个 业界 VSAN 都 是 一 颗 闪 次 的 明星 。 


从 版 本 6.1 起 ，VSAN 开 始 提 供 “ 运 行 状 况 服 务 ”， 可 以 监控 、 探 测 并 协助 解决 硬件 、 配 置 和 性 能 上 的 问题 。 到 版 本 6.2， 管 
理工 具 集 中 又 新 增 了 “性 能 服务 ”， 它 可 以 提供 高 级 性 能 上 监控 和 分 析 。 通 过 运用 这 些 工具 和 | 数据， 用户 束 对 其 基础 染 构 的 状态 和 
不 同 虚 拟 机 及 工作 负载 所 消耗 的 资源 ， 具 有 了 端 到 端 的 可 视 性 。 例 如 ， 管 理 员 束 可 以 通过 此 单一 的 工具 做 到 性 能 的 排 错 ， 进 行 问 


题 的 根本 原因 分 析 (无 论 是 计算 、 网 络 还 是 存储 方面 ) ， 并 决定 解决 问题 的 方案 。 
VSAN 所 有 的 管理 特性 ， 包 括 启 有 用、 配置、 升级 以 及 运行 状况 和 性 能 服务 ， 都 构建 在 一 个 可 扩展 的 分 布 式 的 架构 上 。 它 们 完 
全 可 以 支持 APl， 这 也 是 非常 流行 的 vSphere API 的 扩展 集 。 与 此 同时 ， 所 有 VSAN 和 HCI 的 管理 特性 都 原生 地 集成 在 vSphere 


Web 客 户 闹 中 。 
VSAN 天 生 就 和 ESXi 这 个 业界 最 佳 的 hypervisor 集 成 在 一 起 ， 提 供 无 可 匹 政 的 超 融 合 基础 架构 的 高 效 与 性 能 。 该 产品 对 


vSphere 客 户 来 说 “ 即 开 即 用 ”。 不 仅 如 此 ， 其 控制 平面 横向 扩展 的 天 性 为 用 户 及 其 应 用 程序 开启 了 在 私有 云 和 公有 云 上 的 新 天 


地 。 而 令 人 激动 的 旅程 才刚 刚 开始 呢 ! 
给 客户 市 来 的 操作 上 的 好 处 。 而 


VSAN 上 ， 包 括 描述 其 独特 的 架构 和 给 客 
户 带 来 的 种 种 益处 。 而 本 书 则 不 同 ， 它 是 介绍 VSAN ( 包 


介绍 


已 经 有 很 多 墨水 (当然 更 多 是 电子 墨水 啦 ) 挥 酒 在 
上 且 天 天 都 有 新 文章 出 现 ， 每 个 朋友 都 不 音 表 达 上 自己 的 观点 ， 摘 述 它 
丘 产 品 和 其 育 后 技术 的 ) 最 全 面 也 最 权 克 的 参考 书 。 


信号 
给 窜 


经 验 和 客户 的 反馈 出 友 ， 在 设计 阶段 融 贡 献 了 大 量 


Duncan 和 Cormac 从 这 个 项 目 最 初 开始 时 束 加 入 了 团队 ， 他 们 从 自身 的 
宝贵 的 意见 。 他 们 不 仪 极其 熟悉 产品 的 架构 ， 而 且 还 具有 大 量 实战 操作 经 验 ， 无 论 是 在 实验 室 还 是 在 全 球 各 地 客户 的 现场 。 


此 ， 他 们 的 书 真正 是 从 IT 专业 人 士 的 角度 出 友 直 切 主题 。 
希望 你 能 和 我 一 样 从 本 书 中 获 葵 民 多 。 
Christos Karamanolis 


VMwate 名 士 ， 存 储 和 可 用 性 部 门 CIO 


导 到 了 缓解 ， 但 是 很 多 机 构 还 没 能 采 


襄 到 虚拟 化 及 其 依赖 的 底层 基础 架构 ， 经 常会 提起 一 个 组 件 一 一 存储 。 原 因 相 当 简 单 : 人 在 很 多 环境 中 ， 仔 储 是 痛 点 。 尽 管 
存储 市 场 已 经 因为 内 存 技术 的 引入 友 生 了 变化 ， 很 多 传统 的 存储 问题 4 及 纳 这 些 新 的 架构 ， 因 而 


仍然 会 遇 到 挑战 。 
性 能 问题 甚至 是 可 用 性 的 限制 。 这 些 间 题 中 的 大 部 分 都 起 因 于 同样 的 根本 问题 : 老 旧 


存储 问题 的 汽 围 包括 运营 上 的 复杂 性 至 
的 系统 染 构 。 这 是 因为 大 多 数 存 储 平台 染 构 是 在 虚拟 化 技术 出 现 之 前 开 友 出 来 的 ， 而 虚拟 化 已 经 改变 了 使 用 这 些 共享 存储 平台 的 
万 法 。 
某 种 程度 上 ， 可 以 说 是 虚拟 化 担 使 存储 业界 去 寻找 新 的 方法 来 构建 存储 系统 。 不 再 是 通过 日 台 服 务 器 连接 到 单 台 存储 设备 
(也 称 为 逻辑 单元 或 简写 为 LUN) ， 虚 拟 化 通 弟 由 一 台 (或 多 台 ) 物理 服务 器 承载 很 多 虚拟 机 连接 到 一 个 或 多 个 存储 设备 上 。 


这 不 仅仅 增加 了 这 泽 人 存储 系统 的 负载 ， 也 改变 了 工作 负载 的 模式 并 增加 了 对 总 容量 的 需求 。 


可 以 想象 ， 对 于 大 多 数 存储 管理 员 来 说， 这 要 求 思 考 模式 的 大 改变 。LUN 的 大 小 应 该 是 多 少 ? 对 性 能 有 什么 要 求 ? 最 终 需 
要 多 少 个 磁盘 ? 这些 LUN 将 提供 何 种 数据 服务 ? 虚拟 机 将 存放 在 什么 地 万 ? 不 仅 思 考 模式 要 改变 ， 而 且 要 求 和 其 他 |T 团 队 协 力 合 
作 。 过 去 服务 器 管理 员 、 网 络 管 理 员 和 体 依 管理 员 都 可 以 活 在 他 们 目 己 的 独立 的 小 天 地 内 ， 现 在 他 们 需要 相互 沟通 并 齐心 协力 才 
能 保证 他 们 构建 的 平台 的 高 可 用 性 。 在 过 去 ,一 个 错误 (例如 错误 配置 或 过 低 的 置 备 ) 只 会 影响 一 台 服 务 器 ， 现 在 则 会 影响 很 多 
虚拟 机 。 


当 虚 拟 化 出 现时 ， 我 们 对 于 如 何 运 营 和 构建 |T 基 础 架构 的 思维 曾经 友 生 过 集体 性 的 根本 变化 。 如 今 集体 性 的 转变 再 次 友 生 ， 
这 一 次 是 由 软件 定义 的 网 络 和 软件 定义 的 存储 引起 的 。 但 我 们 不 应 该 骨 重 复 历史 ， 重 复 那 些 在 虚拟 化 首次 出 现时 我 们 曾经 犯 过 的 
错误 。 我 们 应 该 坦率 而 开放 地 和 数据 中 心 管理 员 们 讨论 这 个 问题 ， 并 一 起 迎接 数据 中 心 染 构 和 运营 的 革命 。 


读者 对 象 


本 书 的 目标 读者 是 和 VMware vSphere 环 境 相关 的 IT 专业 人 员 。 你 最 好 已 经 用 过 一 阵子 VMware vSphere， 或 许 已 经 参加 
过 vSphere 的 课程 ， 例 如 “安装 、 配 置 和 管理 ”课程 。 本 书 不 是 一 本 初学 者 读物 ， 但 是 书 中 提供 的 信息 应 该 已 经 足够 履 盖 各 种 不 
同 水 平 的 管理 员 和 架构 师 。 


如 何 使 用 本 书 
本 书 分 10 草 ， 分 别 如 下 : 
- 第 1 章 概 要 介绍 了 软件 定义 的 存储 和 VSAN。 
- 第 2 章 从 物理 和 虚拟 的 角度 描述 了 安全 实施 VSAN 的 要 求 。 
` 第 3 章 介 绍 了 安装 和 配置 VSAN 的 各 个 步骤 。 
- 第 4 章 介 绍 了 基于 策略 的 存储 管理 。 
- 第 5 章 深 入 介绍 了 VSAN 的 架构 细节 。 
` 第 6 草 描 述 了 虚拟 机 存储 策略 是 如 何 用 来 简化 虚拟 机 部 署 的 。 
` 第 7 章 描述 了 常用 的 管理 和 维护 任务 的 步骤 。 
` 第 8 章 履 盖 了 关于 VSAN 延 伸 群 集 的 介绍 、 操 作 、 架 构 和 设计 决策 。 
- 第 9 章 提供 了 多 个 例子 来 介绍 如 何 设 计 一 个 VSAN 群 集 ， 包 含 了 一 些 容 量规 划 的 练习 。 


: 第 10 章 覆盖 了 各 种 可 用 于 进行 VSAN 排 错 和 监控 的 (命令 行 ) 工具 。 


致谢 


我 们 两 个 作者 都 在 VMware 公司 工作 。 在 本 书 中 表达 的 意见 都 是 我 们 根据 自己 对 产品 的 经 验 表 达 的 个 人 意见 。 本 书 中 的 陈述 
不 一 定 反 映 出 VMware 公司 的 意见 和 观点 。 
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要 特别 感谢 Virtual SAN 工 程 团 队 的 耐心 和 帮助 ， 特 别 要 指出 存储 与 可 用 性 部 门 的 几 个 人 : Christian Dickmann, Paudie 
O”Riordan 和 Christos Karamanolis， 他 们 在 VSAN 方 面 的 渊博 知识 和 对 VSAN 的 深入 理解 贯穿 到 了 本 书 的 各 个 角落 。 我 们 还 想 
感谢 William Lam 对 本 书 提 供 的 帮助 和 贡献 。 
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VSAN 加 油 ! 


Cormac Horgan 和 Duncan Epping 


天 于 作者 


Cormac Hogan 是 VMware CTO 办 公 室 及 存储 和 可 用 性 业务 部 门 的 高 级 资深 工程 师 。 他 是 位 于 爱尔兰 科 胸 市 的 VMware 
EMEA 总 部 2005 年 的 第 一 批 和 雇员 之 一 ， 曾 经 在 VMware 技 术 市 场 部 门 和 支持 部 门 任职 。Cormac 撰 写 过 很 多 存储 相关 的 白 皮 
书 ， 并 做 过 大 量 关 于 存储 最 佳 实践 和 新 特性 方面 的 演讲 。Cormac 是 CormacHogan.com 网 站 的 站 长 ， 这 是 一 个 专注 在 存储 和 虚 
拟 化 方面 的 博客 网 站 。 


可 以 通过 twitter 关 注 他 : @CormacJHogan。 


和 DA 


Duncan Epping 是 VMware CTO 办 公 室 及 存储 和 可 用 性 业务 部 门 的 首席 架构 师 。 他 负责 确保 VMware 下 一 阶段 的 革新 能 符 
合 客户 的 需求 、 将 挑战 转换 为 机 会 ， 并 领导 VMware 在 存储 和 可 用 性 方面 的 全 球 化 的 布道 和 宣传 。Duncan 专 门 研究 软件 定义 的 
存储 、 超 融合 基础 架构 以 及 业务 连续 性 / 容 灾 解决 方案 。Duncan 拥 有 1 项 关于 可 用 性 、 存 储 和 资源 管理 方面 的 专利 ， 还 有 4 项 专 
利 正 在 审核 中 。 他 是 VMware 虚拟 化 博客 站 Yellow-Bricks.com 网 站 的 站 长 和 著作 者 ， 也 是 多 本 关于 VMware 闭 作 的 作者 ， 包 括 
vSphere 和 群集 技术 深入 探讨 (vSphere Clustering Technical Deepdive) 系列 。 


可 以 通过 twitter 关 注 他 : @DuncanYB, 





[1] EMEA 指 的 是 Europe,Middle East and Africa. 译 者 注 


天 于 技术 审 校 者 


Christian Dickmann 是 VMware 存储 和 可 用 性 业务 部 门 的 VSAN 架 构 师 和 高 级 资深 工程 师 。 除 了 系统 架构 之 外 ， 他 现在 还 
关注 易 用 性 、 故 障 排查 、 监 控 、 安 装 和 生命 周期 管理 等 方面 的 管理 功能 。 自 2007 年 加 入 VMware 以 来 ， 他 曾 做 过 关于 网 络 栈 的 
扩展 和 从 头 构 建 一 个 vSphere 研 友 、 开 发 和 测试 云 的 工作 ， 后 者 使 得 他 获得 了 相当 多 的 用 户 体 验 和 来 自 客户 方 角度 的 经 验 ，。 


John Nicholson 是 存储 和 可 用 性 业务 部 门 的 高 级 技术 市 场 经 理 。 他 专注 于 围绕 VMware VSAN 解 决 方案 来 交付 技术 指南 。 
John 曾 在 VMware 的 合作 伙伴 公司 和 客户 公司 工作 过 ， 有 构建 并 实施 企业 级 存储 和 和 VDI 解决 方 案 的 经 历 。 他 有 具有 多 个 VCP 证 书 
(VCP5-DT, VCP6-DCV) 并 是 VExpert 和 Veem Vanguard 项 目的 成 员 。 


第 1 章 VSAN 概 六 


本 章 将 把 你 审 入 软件 定义 的 数据 中 心 (SDDC) 的 世界 ， 不 过 我 们 将 主要 关注 存储 方面 。 本 草 首 先 讨论 软件 定义 的 数据 中 心 
的 基本 前 提 ， 随 后 深入 到 软件 定义 的 存储 的 概念 及 其 相关 的 解决 方案 ,例如 服务 器 存储 区 域 网 络 (Server SAN) 以 及 超 融合 基 
础 架构 解决 方案 。 


1.1 软件 定义 的 数据 中 心 


在 2012 年 VMware 的 年 度 大 会 VMworld 上 ，VMware 分 享 了 对 于 软件 定义 的 数据 中 心 (software-defined 
datacenter, SDDC) 的 愿景 。SDDC 是 VMware 的 公有 云 和 私有 云 的 架构 ， 在 其 中 将 数据 中 心 所 有 的 重要 组 成 部 分 一 一 计算 、 
人 存储、 网 络 以 及 相 天 的 服务 全 部 都 进行 虚拟 化 。 将 数据 中 心 的 各 个 组 件 虚 拟 化 使 得 IT 团 队 更 加 灵活 ， 降 低 了 运营 的 复杂 性 ， 减 少 
了 成 本 ， 并 同时 增加 了 可 用 性 和 敏捷 性 ， 最 终 将 大 大 缩短 把 新 服务 投向 市 场 的 时 间 。 


要 达到 这 些 目的 ， 仅 仅 是 实现 所 有 组 件 本 身 的 虚拟 化 是 不 够 的 ， 其 使 用 的 平台 必须 拥有 以 全 目 动 的 方式 来 安 半 和 配置 的 能 
力 。 更 重要 的 是 ， 它 应 该 能 使 你 无 须 过 多 操作 束 能 智能 地 管理 和 星 控 基础 架构 。 这 就 是 软件 定义 的 数据 中 心 的 意义 所 在 ! 残 像 
VMware 的 高 级 副 总 裁 Raghu Raghuram 所 概括 的 : 软件 定义 的 数据 中 心 的 精 要 丈 是 “抽象 化 、 闻 化 和 目 动 化 ”。 


抽象 化 、 池 化 和 自动 化 都 是 通过 在 物理 资源 上 引入 额外 的 层面 实现 的 ， 这 个 层面 通常 是 指 虚 拟 化 层 。 我 想 本 书 大 多 数 的 读者 
对 计算 虚拟 化 的 领军 产品 VMware vSphere 都 会 比较 熟悉 ， 但 是 熟悉 网 络 虚 拟 化 一 一 有 时 候 也 指 软件 定义 的 网 络 (software- 
defined network, SDN) 的 解决 万 案 一 一 的 读者 就 可 能 比较 少 了 。 人 在 这 个 领域 VMware 提 供 的 解决 方案 叫做 NSX， 这 是 在 收 
购 来 的 Nicira 公 司 的 解决 方案 的 基础 上 构建 而 成 的 。NSX 之 于 网 络 就 相当 于 vSphere 之 于 计算 一 样 。 这 些 层面 不 仪 对 物理 资源 进 
行 虚拟 化 ， 还 允许 你 将 它们 池 化 ， 并 上 且 提供 应 用 程序 编程 接口 (application programming interface, API) 来 允许 你 将 所 有 
的 运营 活动 都 上 自动化。 


然而 目 动 化 不 仅仅 意味 痢 脚 本 编写 ， 例 如 虚拟 机 (及 其 相关 联 的 资源 ) 的 置 备 自动 化 的 一 个 重要 环节 是 通过 基于 策略 的 省 理 
来 实现 的 。 预 定义 的 策略 使 你 得 以 用 快速 、 人 便捷、 一致 和 可 重复 的 方式 来 置 备 虚拟 机 。 计 算 策 略 的 一 个 例子 丈 是 定义 在 深 源 池 或 
VApp 容 器 上 的 资源 特性 。 这 些 特 性 使 你 可 以 从 预 留 (reservation) 、 限 制 (limit) 和 优先 级 (priority) 等 方面 量化 资源 委 
略 。 网 络 策 上 略 的 范围 可 以 涵盖 从 安全 到 服务 质量 等 名 个 方面 。 遗 憾 的 是 ， 存 储 却 往往 大 大 受 限 于 物理 存储 设备 提供 的 特性 ， 很 多 
时 候 无 法 满足 许多 客 尸 的 需求 和 期 望 。 


本 书 将 讨论 VMware 的 SDDC 的 存储 组 件 ， 具 体 来 咒 ， 束 是 一 蒜 名 为 Virtual SAN (VSAN) 的 产品 将 怎样 来 切入 这 个 愿景 。 
我 们 将 从 底层 的 实施 细节 来 探讨 如 何 实施 、 如 何 将 其 整合 到 现 有 的 平台 中 、 如 何 利用 其 功能 ， 以 及 如 何 进 行 扩容 。 不 过 ， 在 开始 
之 前 ， 了 解 一 下 VSAN 对 于 更 宽泛 的 软件 定义 的 存储 来 说 意味 着 什么 还 是 有 帮助 的 。 


1.2 ”软件 定义 的 仓储 


软件 定义 的 存储 是 一 个 被 很 多 厂商 广 为 使 用 甚至 到 了 滥用 地 步 的 一 个 术语 。 因 为 每 一 家 的 定义 都 不 同 ， 所 以 还 是 让 我 们 先 来 
引用 一 下 VMware 的 定义 : 


软件 定义 的 存储 是 将 工业 标准 服务 器 的 存储 提供 出 来 并 通过 软件 控制 层面 实现 存储 的 自动 化 和 池 化 。 它 将 存储 的 置 备 和 管理 
的 方法 简化 到 了 极致 ， 并 利用 工业 标准 服务 器 的 存储 大 大 降低 了 成 本 。 (资料 来 源 : http://cto.vmware.com/vmwares-strategy-for- 


software-defined-storage/。) 


软件 定义 的 存储 产品 是 一 个 将 硬件 抽象 化 的 解决 方案 ， 它 使 你 可 以 轻松 地 将 所 有 资源 池 化 并 通过 一 个 友好 的 用 户 界面 
(UI) 或 APl 来 提供 给 消费 者 。 一 个 软件 定义 的 存储 的 解决 方案 使 得 你 可 以 在 不 增加 任何 工作 量 的 情况 下 进行 纵向 扩展 (Scale- 
Up) 或 横 同 扩 展 (Scale-out) 。 


很 多 人 坚持 认为 软件 定义 的 存储 束 是 将 传统 存储 设备 的 功能 移 到 了 主机 上 。 这 个 趋势 始 于 存储 设备 的 虚拟 化 版 本 (例如 惠普 
的 StoreVirtual VSA 系 列 产 品 ) ， 并 未 渐进 化 到 运行 在 各 种 不 同 的 硬件 平台 上 的 各 种 解决 方案 ， 其 中 一 个 例子 束 是 Nexenta。 目 
此 一 个 新 的 时 代 来 临 了 。 


1.3 超 融 合 /服务 器 SAN 解 决 方案 


过 去 几 年 ， 围 绕 着 什么 是 超 融 合 什么 又 是 Server SAN 存 在 着 很 多 争论 。 在 我 们 看 来 ， 这 两 者 最 大 的 区 别 残 是 运行 的 平台 集 
成 化 的 程度 和 交付 模式 。 襄 起 交付 模式 ， 则 有 2 种 不 同 的 方案 : 


. 基于 设备 的 
. 纯 软 件 的 


基于 设备 的 解决 方案 束 是 把 软件 和 硬件 捆绑 在 一 起 销售 交付 的 一 种 解决 方案 ， 它 预 流 了 一 种 hypervisor， 通 常 配置 起 来 不 费 
吹 灰 之 力 。 它 往往 还 通过 利用 其 所 提供 的 存储 API 或 诅 入 在 hypervisor 内 的 扩展 数据 服务 等 各 种 方法 与 其 运行 的 平台 硬件 深度 集 


在 所 有 这 些 例子 中 ， 本 地 存储 都 是 通过 虚拟 存储 设备 (virtual storage appliance) 或 者 基于 内 核 的 存储 栈 (kernel-based 
storage stack) 的 方式 ,集成 进 一 个 大 的 共享 (存储) 池 中 。 现 在 市 场 上 能 看 见 的 基于 设备 的 解决 万 案 的 典型 例子 有 
Nutanix, SimpliVity, 34254 Virtual SAN。 当 有 人 问 起 一 个 典型 的 超 融 合 设备 长 什么 样子 的 时 候 ， 通 单 丛 案 是 这 样 的 : 一 个 
2U 机 染 式 外 观 的 人 金子 中 集成 了 4 个 主机 。 然 而 ， 我 们 心目 中 的 超 融 合 不 只 是 个 铁皮 盒子， 它 是 一 个 集成 了 不 同 组 件 的 单一 解决 方 
案 。 这 个 解决 万 案 必 须 是 易于 安 准 、 易 于 配置 、 易 于 管理 和 易于 监控 的 。 不 过 ,说 句 公 道 话 ， 过 去 大 多 数 起 融合 系统 通常 都 是 以 
4 台 主 机 集成 在 2U 的 铁皮 机 箱 内 的 方式 呈现 的 。 图 1-1 显 示 的 丈 是 这 类 设备 的 外 观 。 不 过 别 弄 错 ， 这 些 其 实 只 是 党 见 的 x86 服 务 
器 而 已。 
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图 1-1 超 融 合 存储 厂商 常用 的 硬件 
问题 来 了 : 如 果 这 只 是 些 安 丢 了 hypervisor 的 传统 X86 服 务 器 加 上 一 个 虚拟 存储 设备 ， 那 么 相 比 传统 仓储 系统 它 的 优势 在 哪 
里 ” 超 融 合 平台 的 优点 是 : 
: 投产 时 间 短 ， 人 安装 、 部 夏 时 间 不 超过 1 小 时 
“易于 管理 和 集成 
- 能 同时 在 容量 和 性 能 上 进行 横向 扩展 


` 相 比 传统 环境 更 低 的 总 购置 成 本 


是 自己 所 偏好 的 硬件 供应 商 ， 因 此 在 涉及 系统 更 新 和 补丁 ， 甚 至 是 在 布线 和 上 染 等 问题 时 引 友 了 很 多 可 操作 性 层面 的 质 
疑 。 其 实 这 融 是 一 个 信任 问题 。 某 些 人 被 服务 器 厂商 X 洗 脑 后 根本 不 会 考虑 其 他 品牌 ， 而 另 一 些 人 却 可 能 完全 不 喜欢 品牌 X。 竹 
运 的 是 ， 最 近 大 多 数 超 融合 厂商 的 解决 方案 都 可 通过 不 同 的 服务 器 硬件 商 来 购买 。 如 果 这 还 没 能 提供 足够 的 灵活 性 ， 那 么 融 是 
软件 定义 的 存储 解决 方案 的 切入 点 了 。 


纯 软 件 的 存储 解决 万 案 又 分 两 类 。 现 在 最 常见 的 解决 方案 是 虚拟 存储 设备 (virtual storage appliance, VSA) 。VSA 和 解决 
方案 是 以 虚拟 机 方式 部 署 的 ， 它 们 安装 于 物理 硬件 上 的 hypervisor 层 上 。VSA 人 允许 你 将 底层 的 物理 资源 池 化 为 一 个 共享 的 存储 设 
备 。VSA 的 例子 有 Maxta、 惠 普 的 StoreVirtual VSA 和 EMC Scale 10。 纯 软件 解决 方案 的 优点 是 通常 可 以 利用 现 有 的 硬件 ， 只 
要 它们 存在 于 硬件 兼容 列表 (hardware compatibility list, HCL) 中 即 可 。 大 多 数 情况 下 ， 这 个 硬件 兼容 列表 和 hypervisor 所 
支持 的 硬件 类 似 ， 只 有 少数 关键 组 件 例 外 ， 如 磁盘 控制 器 和 闪存 设备 。 


VSAN 也 是 一 种 纯 软 件 的 解决 万 案 ， 然而,，VSAN 和 上 面 提 到 的 这 些 VSA 有 显 闭 的 区 别 ， 它 位 于 一 个 不 同 的 层面 上 。VSAN 
不 是 一 个 基于 VSA 的 解决 方案 ， 而 更 其 于 此 ， 它 通常 是 经 由 硬件 厂商 的 选择 而 和 硬件 捆绑 在 一 起 的 。 由 此 ，VMware 定 义 的 


VSAN 是 一 个 超 融 合 的 软件 解决 方案 ， 因 为 它 事 实 上 是 很 多 超 融 合 产品 的 友 动 机 。 


1.4 Virtual SANIT 


对 于 软件 定义 的 存储 ，VMware 计 划 把 重点 放 在 一 系列 本 地 和 存储、 共享 存储 以 及 存储 /数据 服务 的 VMware 创 新 项 目 上 。 一 
言 以 英之 ，VMware 想 i 上 vSphere 成 为 存储 服务 的 平台 。 


存储 曾经 是 一 种 在 项 目 初期 配置 、 部 署 完 毕 并 且 在 其 整个 生命 周期 都 不 会 变更 的 存储。 如 果 需 要 变更 某 个 正 被 虚拟 机 使 用 的 
LUN 或 卷 的 某 些 特性 或 属性 ， 大 多 数 情 况 下 ， 原 始 LUN 或 卷 必须 被 删除 并 重建 。 这 是 一 种 干扰 生产 的 、 有 风险 的 并 需要 耗费 大 
量 时 间 的 操作 ， 因 为 它 需 要 在 LUN 或 卷 之 间 迁 移 数 据 。 这 甚至 可 能 需要 几 个 星期 来 进行 协调 沟通 。 


有 了 软件 定义 的 存储 后 ， 虚 拟 机 存储 需求 可 以 动态 地 实例 化 ， 而 不 需要 重建 LUN 或 郑 。 随 着 时 间 的 推移 ， 虚 拟 机 的 工作 负 
载 和 需求 可 能 会 友 生变 化 ， 底 层 的 存储 可 以 在 任何 时 候 根 据 工 作 负 和 载 来 进行 调整 。 这 就 是 VSAN 所 想 要 实现 的 目标 : 通过 主机 上 
的 软件 层面 来 将 底层 的 硬件 集成 、 抽 象 化 和 池 化 ， 以 此 来 提供 存储 服务 和 服务 水 平 协议 (service level agreement, SLA) BSE 
动 化 。 


软件 定义 的 存储 的 一 个 关键 要 素 是 基于 存储 策略 的 管理 (storage policy-based management, SPBM) 。SPBM 可 以 看 
作 是 在 vSphere 5.0 时 引入 的 VMware 存储 配置 文件 (Storage Profile) 特性 的 下 一 代 进 化 版 本 。 存 储 配 置 文件 的 着 眼 点 更 侧重 
于 如 何 确保 虚拟 机 在 置 备 时 能 选择 到 正确 的 存储 设备 ， 而 在 vSphere 6.x 中 SPBM 则 是 VMware 如 何 实现 基于 软件 的 存储 的 极为 
重要 的 组 件 。 


通过 SPBM 和 vSphere AP1， 底 层 仔 储 扩 林 表现 为 一 个 具有 多 种 功能 的 抽象 化 的 仓储 空间 池 ， 并 展现 给 vsphere 管 理 员 用 于 
虚拟 机 置 备 。 这 些 功能 与 性 能 、 可 用 性 或 仓储 服务 (例如 精简 置 备 、 压 缩 、 复 制 等 ) 相关 。 由 此 vsphere 管 理 员 可 以 用 这 么 一 组 
功能 (这 组 功能 是 运行 在 虚拟 机 上 的 应 用 程序 所 需要 的 ) 创建 一 个 虚拟 机 存储 策略 (或 配置 文件 ) 。 在 部 署 的 时 候 ，vSphere 管 
理 员 选择 一 个 虚拟 机 存储 策略 ，SPBM 将 这 个 虚拟 机 存储 策略 推送 给 存储 层 和 数据 存储 ， 使 之 明日 其 中 的 要 求 并 用 于 存储 选择 。 
这 意味 着 虚拟 机 思 能 被 创建 在 能 满足 虚拟 机 存储 策略 中 的 要 求 的 合适 的 底层 存储 上 ， 而 且 置 备 出 的 虚拟 机 可 以 从 存储 资源 的 抽象 
池 中 获取 到 刚好 恰当 的 资源 和 所 需 的 服务 。 


如 果 虚 拟 机 工作 负载 、 可 用 性 要 求 或 其 |/O 的 模式 随时 间 的 推移 友 生 了 变化 ， 只 需要 简单 地 对 特定 虚拟 机 (甚至 只 需 对 虚拟 
磁盘 ) 应 用 一 个 新 的 虚拟 机 存储 策略 即 可 。 在 这 个 新 的 虚拟 机 存储 策略 中 包含 反映 新 的 工作 负载 的 需求 和 特性 。 之 后 ， 策 略 束 可 
以 无 须 任何 管 理 员 人 为 干预 、 无 颖 地 被 实现 (比照 而 言 ， 很 多 传统 存储 系统 都 需要 手工 将 虚拟 机 或 虚拟 磁盘 迁移 到 一 个 不 同 的 数 
据 仔 储 上 才能 实现 同样 的 功能 ) 。VSAN 束 是 为 了 实现 和 vSphere 及 其 提供 的 SPBM 功 能 进行 无 颖 集成 而 开发 出 来 的 。 


1.5 ”什么 是 Virtual SAN 


Virtual SAN 是 VMware 推出 的 一 种 人 存储 解决 方案 ， 它 的 beta 版 本 在 2013 年 点 布 ，2014 年 3 月 正式 开放 给 公众 ， 并 于 2016 年 
3 月 升级 到 6.2 版 。VSAN 寺 全 集成 在 vSphere 中 ， 它 是 一 种 基于 对 象 的 存储 系统 ， 是 虚拟 机 存储 策略 的 平台 ， 这 种 存储 策略 的 目 
标 是 为 了 帮助 vsphere 管 理 员 简 化 虚拟 机 的 仓储 放置 决策 。 它 完全 文 持 并 与 VSphere 的 核心 特性 ， 诸 如 vsphere 高 可 用 性 

(HA) 、 分 布 式 资源 调度 (DRS) 以 及 vMotion 等 深度 集成 在 一 起 ， 参 见 图 1-2。 





| esx1-02 | esx1-03 
| | 
| | 
| | 


VSAN 万 兆 以 太 网 





图 1-2 VSAN 和 群集 概览 


VSAN 的 目标 是 在 提供 弹性 的 同时 提供 横向 扩展 存储 的 能 力 。 从 QoS 的 角度 来 考虑 ， 其 目标 还 在 于 创建 虚拟 机 存储 策略 以 在 
每 台 虚 拟 机 长 至 是 每 个 虚拟 磁盘 的 粒度 上 来 定义 性 能 和 可 用 性 水 平 。 


VSAN 是 一 种 基于 软件 的 分 布 式 存储 解决 方案 ， 它 直接 构建 在 hypervisor 中 。 它 不 是 已 有 的 其 他 解决 方案 所 采用 的 那 种 虚拟 
设备 (virtual appliance) ， 而 应 该 被 认为 是 一 种 基于 内 核 的 解决 方案 ， 是 hypervisor 的 一 部 分 。 技 术 上 来 说 ， 这 并 不 完全 准 
确 ， 因 为 对 应 于 性 能 和 响应 速度 的 关键 组 件 (例如 数据 路 径 和 和 群集) 是 位 于 内 核 中 的 ， 而 其 他 组 件 可 以 被 认为 是 “控制 层 
面 ” (control plane) 的 一 部 分 ， 通常 以 原生 用 户 空间 代理 (native user-space agent) 方式 被 实施 。 虽 然 如 此 ， 对 于 
VSAN， 除 了 你 早已 熟悉 的 VMware vSphere 本 身 之 外 ， 不 需要 安装 任何 其 他 东西 。 


Virtual SAN 意 味 着 简单 。 无 须 多 言 ， 它 就 是 那么 简单 。 试 一 下 吧 ， 它 就 是 简单 到 只 需要 为 Virtual SAN 的 传输 创建 一 块 
VMkernel 网 络 接口 卡 (network interface card, NIC) 并 在 群集 级 别 上 局 用 即 可 (如 图 1-3 所 示 ) 。 当 然 ， 为 了 提供 最 佳 的 用 
户 体验 ， 的 确 有 一 些 建 议和 前 提 条 件 。 不 用 担心 ， 第 2 章 会 为 你 细 细 讲 来 。 


Name VSAN-CI uster 


Location Ba VSAN-55-DC 
+ DRS | Turn ON 
+ vSphere HA [.] Tum ON 


+ EVC Disable Is | 


t Virtual SAN |.] Turn ON 


图 1-3 ”两 次 点 击 启用 VSAN 





现在 我 们 知道 了 它 易于 使 用 且 配 置 简单 ， 那 么 像 VSAN 这 样 的 解决 方案 到 底 有 什么 优点 呢 ? 主 要 的 卖点 在 哪里 呢 ? 











- 软件 定义 的 一 一 使 用 工业 标准 的 硬件 
- 弹性 一 一 无 论 何 时 都 可 按 需 扩 展 ， 既 可 纵向 扩展 ， 也 可 横向 扩展 
- 简单 一 一 管理 和 操作 简单 到 不 可 思议 


- 自动 一 一 针对 单 台 虚拟 机 或 单个 磁盘 的 基于 策略 的 管理 


- 融合 一 一 使 你 得 以 创建 高 密度 的 积木 般 的 解决 方案 


听 上 去 好 有 竞争 力 的 ,不 是 吗 ? 你 可 能 会 问 ，VSAN 适 用 在 什么 地 方 ? 有 没有 实用 案例 ? 现今 义 有 什么 不 适用 的 地 方 ? 现在 


VSAN 适 用 于 以 下 场景 : 


- 关键 业务 应 用 : 运行 各 种 数据 服务 的 稳定 的 存储 平台 对 于 运行 关键 业务 工作 负载 是 非常 重要 的 ， 无 论 是 Microsoft 


Exchange、SQL 还 是 Oracle 等 


y- 
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- 测试 和 开 友 一 一 无 须 购买 昂贵 的 存储 (降低 总 拥有 成 本 TCO) 并 可 快速 置 备 

- 管理 或 DMZ 基 础 架构 一 一 完全 隔离 增加 了 安全 性 ， 不 依赖 于 受 其 管理 的 资源 

: 容 灾 恢复 的 目的 廉价 的 容 灾 恢复 解决 方案 ， 通 过 诸如 vSphete Replication 之 类 的 特性 来 启用 ,使 
成 为 可 能 。 


20 Lx 


ITA 


制 到 任何 存储 平台 


远程 办 公 室 /分 支 办 公 室 (ROBO) : VSAN 可 以 提供 支持 集中 管理 的 、 小 到 只 有 2 人 台 主 机 的 系统 的 能 力 ， 是 ROBO 的 完美 


- 延伸 群集 : 为 跨 地 域 远程 站 点 之 间 的 大 量 工 作 负 载 提供 极 高 的 可 用 性 。 


现在 你 知道 VSAN 是 什么 了 ， 并 且 知 道 它 可 以 用 于 任何 类 型 的 工作 负载 ， 现 在 让 我 们 简要 地 了 解 一 下 每 个 版 本 市 来 的 功能 


IE, 


- VSAN 1.0 2014 年 3 月 友 布 


` 初次 发 布 


- VSAN 6.0 2015 年 3 月 友 布 


. 全 闪存 配置 


群集 支持 64 主 机 


` 混合 配置 的 性 能 提升 2 倍 


-新 的 快照 机 制 


- 增强 克隆 机 制 


- 故障 域 / 机 架 感 知 


- VSAN 6.1 2015 年 9 月 友 布 


延伸 群 傈 《最 大 支持 5 毫秒 RITI) 


- 用 于 远程 办 公 室 /分 支 办 公 室 的 2 节点 VSAN 解 决 方案 


: VRealize operation manapgement 软 件 包 支持 





- 支持 vSphete replication 一 一 5 分 钟 RPO 
健康 监控 
- VSAN 6.2 2016 年 3 月 发 布 
络 的 RAID 5/6 ( 纠 删 码 ) 
提高 空间 有 效 性 (去 重 和 压缩 ) 


- QoS-IOPS 限 制 


` 软件 校 验 码 


希望 以 上 内 容 能 给 你 市 来 对 于 各 个 不 同 VSAN 友 布 版 本 新 功能 的 快速 一 贞 。 昌 然 询 出 了 很 多 功能 ， 但 这 并 不 意味 着 VSAN 的 
配置 、 管 理 和 监控 会 很 复杂 。 计 我 们 从 管理 员 的 角度 来 看 看 VSAN 是 什么 样 的 。 


1.6 ”从 官 理 员 和 角度 来 看 VSAN 的 样子 


当 VSAN 启 用 的 时 候 ， 一 个 共享 的 数据 存储 就 开始 展现 给 该 VSAN 群 集中 的 所 有 主机 。 这 就 是 VSAN 强 大 的 地 方 一 一 它 以 数 
据 存 储 的 形式 出 现 。 就 像 现在 所 有 其 他 存储 解决 方案 一 样 ， 这 个 数据 存储 能 用 来 存储 虚拟 机 及 其 所 关联 的 组 件 ， 例 如 虚拟 磁盘 、 
交换 文件 和 虚拟 机 配置 文件 。 当 你 在 部 署 一 台新 的 虚拟 机 的 时 候 ， 你 将 会 看 见 一 个 熟悉 的 界面 ， 其 中 列 出 了 可 用 的 数据 存储 ， 包 
括 基 于 VSAN 的 数据 存储 (如 图 1-4 所 示 ) 。 


(O New Virtual Machina 


1 Selact creation type VM Storage Policy: | ft=2,8w=2 -|0 
v^ 1a Select a creation type Tha following datastores are accessible from tha destination resource that you selected. Select the destination datastore for the virtual 
machine configuration files and all of the virtual disks. 
2 Edit sattings 
v^ 2a Select a name and folder gie vy xi Type Stomqge DRS 
Compatible 
-H vsanDatastore 8.73 TB B. vsan 
incompatible 
2d Select compatibility H mia vnx01 cg07 01 492.37 GB 481.75 GB 
2e Select a guest OS H datastore1 (2) 2.5 GB 1.82 GB 


w . 2b Select a compute resource 
^ 2C Seleci storage 


21 Customize hardware 


3 Ready to complete 


CIE E [ 





Compatibility: 


© Compatibility checks succeeded. 




















图 1-4 一 个 首 通 的 数据 存储 


这 个 VSAN 数 据 存 储 是 在 主机 的 本 地 存储 资源 之 外 形成 的 。 通 常 来 说 ， 在 一 个 局 用 了 VSAN 的 群集 中 所 有 的 主机 都 要 为 这 个 
共享 的 数据 存储 页 献 出 目 己 的 性 能 (闪存 ) 和 容量 (磁盘 ) 。 这 意味 着 当 和 群集 逐渐 扩大 的 时 候 ， 数 据 存 储 也 会 随 之 成 长 。VSAN 
因此 被 称 为 横向 扩展 (在 群集 中 添加 主机 ) 的 存储 系统 ， 但 是 也 允许 纵向 扩展 (给 主机 增加 人 资源) 。 


每 台 为 VSAN 群 集 贡 献 存 储 容量 的 主机 都 至 少 需要 有 一 个 闪存 设备 和 一 个 容量 设备 (磁盘 或 闪存 ) 。 为 了 构成 共享 存 

储 ，VSAN 要 求 群集 中 至 少 有 3 台 主 机 把 自己 的 存储 提供 给 共享 的 数据 存储 使 用 (或 2 台 主 机 ， 如 你 决定 使 用 1 台 见 证 主机 ， 这 常 
见于 ROBO 配 置 时 ) ， 其 他 群集 中 的 主机 可 以 不 贡献 自己 的 存储 而 仅仅 只 是 利用 这 些 存储 资源 。 图 1-5 显 示 一 个 具有 4 台 主 机 的 群 
集 ， 其 中 的 3 台 (esxi-01、esxi-02 和 esxi-03) 贡献 了 自己 的 存储 ， 第 四 台 主 机 没有 提供 自己 的 存储 ， 而 只 是 作为 消费 者 去 使 用 
存储 资源 。 尽 管 一 个 带 有 不 贡献 存储 的 主机 的 非 统一 的 群集 [在 技术 上 是 可 行 的 ， 但 是 为 了 总 体 上 获得 更 好 的 利用 率 、 更 佳 的 性 
能 和 更 高 的 可 用 性 ，VMware 强 烈 建议 创建 一 个 所 有 的 主机 都 贡献 自己 的 存储 的 统一 群集 。 


现今 YSAN 的 界限 无 论 从 容量 还 是 网 络 连 接 的 角度 来 看 都 在 于 vSphere 群 集 。 这 意味 着 VSAN 支 持 单个 群集 /数据 存储 最 多 64 
主机 ， 不 过 单个 vCenter Server 实 例 则 可 以 管理 多 达 64 个 群集 。 但 对 于 大 多 数 客户 而 言 ， 实 践 中 往往 会 限制 群集 的 主机 数 到 大 
概 20 台 左右 。 这 主要 是 出 于 运营 上 的 考量 ， 比 如 考虑 到 更 新 整个 群集 所 需 的 时 间 会 很 长 。 每 台 主 机 最 多 可 以 支持 200 台 虚拟 机 ,， 
一 个 64 台 主机 的 VSAN 群 集中 最 多 可 以 容纳 6400 台 虚拟 机 。 可 以 想象 ， 在 这 么 大 规模 的 存储 系统 上 ， 性 能 和 响应 时 间 是 至 关 重 
要 的 。VSAN 设 计 使 用 了 闪存 来 提供 用 户 期 望 的 性 能 体验 。 闪 存 资源 被 用 于 所 有 的 写 入 操作 ， 而 且 根 据 硬件 配置 的 不 同 (全 闪存 
或 混合 配置 ) ， 读 操作 往往 也 是 由 闪存 提供 的 。 


VSAN: 至 少 3 台 主 机 贡献 存储 | 
ralem ami e s si C em qct tese tes emet ien. 有 | 
esx1-O01 | esx1-02 esx1-03 esx1-04 


| 
'VSAN 万 兆 以 大 网 








图 1-5” 非 统一 的 VSAN 群 集 的 示例 


为 了 保证 部 署 的 虚拟 机 可 以 带 有 某 些 特性 ，VSAN 人 允许 你 为 每 台 虚 拟 机 或 每 块 虚拟 磁盘 分 别 配置 策略 。 这 些 策略 可 以 帮助 你 
实现 为 工作 负载 定义 的 服务 水 平 目 标 (service level objective, SLO) ， 这 可 以 是 性 能 相关 的 特性 一 一 例如 读 缓 冲 或 磁盘 条 
带 ， 但 也 可 以 是 可 用 性 相关 的 特性 一 一 例如 用 来 保证 虚拟 机 磁盘 (以 及 其 他 重要 文件 的 ) 的 策略 副本 的 放置 。 





如 果 曾 经 用 过 虚拟 机 存储 策略 ， 你 或 计 会 产生 疑 误 一 一 是 不 是 保存 在 同一 个 VSAN 数 据 存 储 上 的 所 有 虚拟 机 都 必须 配置 相同 
的 虚拟 机 存储 策略 呢 ? 事实 并 非 如 此 。VSAN 人 允许 在 同一 个 数据 存储 上 给 不 同 的 虚拟 机 提供 不 同 的 策略 ， 甚 至 是 给 同一 个 虚拟 机 
的 不 同 虚 拟 磁 盘 提 供 不 同 的 策略 。 


如 前 所 述 ， 通 过 利用 策略 ， 弹 性 等 级 可 以 根据 每 块 虚拟 磁盘 的 粒度 来 进行 配置 。 一 个 镜像 副本 会 仓 在 于 多 少 台 主机 和 多 少 磁 
盘 上 将 取决 于 所 选择 的 策略 。 因 为 VSAN 可 以 使 用 由 策略 定义 的 镜像 副本 (RAID-1) 或 纠 删 码 (RAID-5/6) 来 提供 弹性 ， 所 以 
不 需要 本 地 RAID 组 。 换 而 言 之 ， 主 机 提供 给 VSAN 和 存储 空间 的 磁盘 应 该 只 需要 简单 地 提供 一 组 磁盘 即 可 。 


不 管 你 定义 的 策略 可 以 容忍 1 台 主 机 故障 ， 还 是 要 容 妨 3 台 主 机 同时 友 生 故障 ，VSAN 都 会 保证 你 的 对 象 有 足够 多 的 副本 被 创 
建 出 来 。 下面 的 例子 朱 述 了 VSAN 和 大 多 数 现 有 的 其 他 虚拟 仓储 解决 方案 之 间 的 主要 区 别 ， 以 及 这 对 于 VSAN 有 多 人 么 重要 。 


Q5 我 们 已 经 配置 好 了 一 个 可 容忍 1 人 台 主 机 故障 的 VSAN 存 储 ， 并 创建 了 一 个 新 的 虚拟 磁盘 。 我 们 已 决定 将 允许 的 故障 
数 设 为 1， 即 形成 RAID-1 配 置 。 这 意味 着 VSAN 将 创建 两 个 完全 一 样 的 存储 对 象 和 一 个 见证 (witness) 对 象 。 见 证 是 一 个 和 虚拟 
机 绑 定 的 对 象 ， 用 来 帮助 VSAN 判 断 故 障 时 谁 将 赢得 所 有 权 。 如 果 你 熟悉 群集 技术 ， 可 以 把 见证 看 成 是 在 故障 事件 发 生 时 决断 所 
有 权 的 仲裁 (quorum) 对 架 。 图 1-6 可 能 有 助 于 阅 明 这 些 有 时 不 太 好 理解 的 概念 ， 它 描述 了 可 以 容忍 一 个 故障 (这 个 故障 可 以 是 
主机 、 网 卡 、 磁 盘 或 内 存 设备 ) 的 情况 下 一 台 带 有 一 块 虚拟 磁盘 的 虚拟 机 看 上 去 是 怎样 的 。 





esx1-02 esx1-03 esx1-04 
































图 1-6 ”VSAN 允 许 的 故障 数 


在 图 1-6 中 ， 虚 拟 机 运行 在 第 一 台 主 机 (esxi-01) 上 ， 而 它 的 虚拟 磁盘 位 于 群集 的 其 他 主机 (esxi-02 和 esxi-03) E. X 
个 场景 中 ，VSAN 网 络 用 于 仓储 MO， 使 得 虚拟 机 可 以 在 群集 中 目 由 移动 而 无 须 随 看 计算 资源 的 迁移 而 移动 仓储 对 象 。 不 过 ， 这 
导致 了 实施 VSAN 所 需 的 第 一 个 必要 条 件 : VSAN 要 求 最 少 一 个 专用 的 干 兆 网 络 端口 ， 不 仅 如 此 ，VMware 推 荐 给 VSAN 网 络 提 
供 万 兆 以 太 网 连接 。 


是 的 ， 这 看 上 去 可 能 还 是 有 点 复杂 ， 但 平 心 而 论 ，VSAN 将 所 有 这 些 复杂 性 都 迟 掩 挥 了 ， 我 们 将 在 本 书 余下 的 章节 中 进一步 
前 述 这 一 上 后。 





[1] 非 统 一 的 群集 ， 原 文 为 honuniform cluster， 指 不 是 由 完全 一 致 的 主机 所 构成 的 群集 。 译 者 注 


1.7 人 小结 


总 结 一 下 ，vSphere Virtual SAN (VSAN) 是 一 个 市 场 领先 的 基于 hypervisor 的 分 布 式 人 存储 平台 ， 它 汇聚 了 计算 和 人 存储 资 
源 ， 因 此 常 被 称 为 超 融合 软件 。 它 使 你 得 以 通过 基于 策略 的 管理 来 定义 以 虚拟 机 为 粒度 的 服务 水 平 目 标 ， 并 使 你 得 以 用 一 种 前 无 
古人 的 简单 上 且 高 效 的 方法 来 控制 可 用 性 和 性 能 。 


切 堪 充 毛 之 后 ， 是 时 候 进一步 进行 探讨 了 。 第 2 和 章 将 摘 述 安 半 和 配置 VSAN 所 需 的 前 提 条 件 。 


第 2 章 ”VSAN 部 署 的 表 提 条 件 和 要 来 


在 深入 VSAN 的 安 六 和 配置 之 前 ， 有 必要 先 讨 论 一 下 安装 的 前 提 条 件 和 要 求 。VMware vSphere 是 每 一 个 基于 VSAN 的 虚拟 
基础 架构 的 基石 。 


2.| VMware vSphere 


VSAN 最 初 是 随 VMware vSphere 5.5 U1 友 布 的 ， 其 更 新 版 本 随 VMware vSphere 6.0 (VSAN 6.0) , VMware vSphere 
6.0 U1 (VSAN 6.1) 以 及 VMware vSphere 6.0 U2 (VSAN 6.2) 发 布 。 每 个 发 布 版 本 都 添加 进 了 VSAN 的 一 些 新 特性 ， 这 些 
特性 曾 人 在 第 1 章 列 出 ， 也 会 在 本 书 的 各 个 章节 中 进一步 讨论 。 


VMware vSphere 包 含 两 个 主要 组 成 部 分 : vCenter Server 管 理 平台 和 ESXi 虚 拟 管理 程序 (hypervisor) 。 要 安装 和 配置 
VSAN, ， 这 两 者 缺 一 不 可 。 


VMware vCenter Server 为 VMware vSphere 环 境 提供 了 一 个 集中 的 管理 平台 。 它 是 用 来 置 备 新 的 虚拟 机 、 配 置 主机 并 进 
行 许 许多 多 与 管理 虚拟 基础 架构 相关 的 运营 工作 的 解决 方案 。 


要 运行 一 个 完全 文 持 VSAN 的 环境 所 必需 的 最 低 版 本 是 vCenter Server 5.5 U1， 不 过 VMware 强烈 推荐 尽 可 能 使 用 最 新 版 本 
的 vSphere。 无 论 是 Windows 版 本 的 vCenter Server 还 是 vCenter Server 虚 拟 设 备 (vCenter Server Appliance, VCSA) 都 可 
以 用 来 管理 VSAN。VSAN 的 管理 和 监控 是 通过 vSphere Web Client 来 进行 的 ， 这 也 要 求 版 本 必须 至 少 是 5.5 Update 1。 对 于 那 
些 希 望 对 配置 、 监 控 或 官 理 进行 某 种 程度 的 (甚至 全 部 ) 自动 化 的 管理 员 来 说 ，VSAN 还 可 以 完全 通过 命令 行 界 面 (CL) 和 
vSphere 应 用 程序 编程 接口 (API) 来 进行 配置 与 管理 。 尽 管 单个 群集 只 能 有 一 个 VAN 数据 仓储 ， 但 是 一 个 vCenter Servers 
例 可 以 管理 多 个 VSAN 和 计算 群集 。 


2.1.1 ESXI 


VMware ESXi 是 一 个 企业 级 虚拟 化 产品 ， 它 允许 你 在 一 台独 立 的 服务 器 上 以 完全 相互 隔离 的 方式 运行 一 个 操作 系统 的 多 个 
实例 。 它 是 一 个 裸 设备 的 解决 万 案 ， 这 意味 着 它 无 须 借 助 客 尸 操作 系统 并 且 目 身 所 占 的 空间 极 小 。ESXi 是 当今 世界 上 绝 大 多 数 虚 
拟 化 环境 的 基础 。 


对 于 标准 的 数据 中 心 部 署 ， 形 成 一 个 受 广 持 的 VSAN 和 群集 需要 至 少 3 全 ESXi 主 机 (每 台 主 机 均 具 有 本 地 存储 并 提供 存储 给 
VSAN 数 据 存 储 使 用 ) 。 这 是 为 了 让 群集 满足 最 低 的 可 用 性 要 求 一 可 以 容忍 至 少 一 台 主 机 友 生 故障 。 





VMware 人 在 VSAN 6.1 ( 随 vSphere 6.0 UIRA) 中 引入 了 一 个 新 的 概念 一 一 2 节点 VSAN 和 群集， 它 主要 用 于 远程 办 公 室 / 分 
支 办 公 室 的 部 署 。 围 绕 2 节 点 VSAN 群 集 的 使 用 还 有 其 他 一 些 考 虑 因素 ， 包 括 见 证 主机 的 概念 ， 这 些 都 将 会 在 第 8 章 深入 探讨 。 


目 VSAN 6.0 起 ， 一 个 群集 支持 最 多 64 台 ESXI 主 机 ， 比 起 最 初 的 友 布 版 本 ( 随 vSphere 5.5 友 布 ， 之 后 我 们 将 称 其 为 VSAN 
5.5) 的 32 台 主机 有 着 显著 的 增长 。 不 过 ， 如 果 要 支持 64 台 主机 ，ESXi 主 机 的 最 低 版 本 要 求 是 6.0。 


一 全 主机 内 存 的 最 小 推荐 值 是 6GB。 如 果 你 的 主机 配置 的 磁盘 组 数量 已 达 上 限 ， 我 们 建议 这 人 台 主 机 至 少 配 置 32GB 内 存 。 
VSAN 并 不 会 消耗 掉 所 有 这 些 内 存 ， 但 是 对 于 最 大 配置 来 说 这 是 必需 的 。 主 机 对 内 存 的 要 求 直接 和 主机 中 配置 的 物理 太 盘 的 数量 
以 及 磁盘 组 的 数量 相关 。 关 于 这 个 问题 ， 你 会 在 第 9 章 中 了 解 更 多 细节 。 在 所 有 情况 下 ， 我 们 都 建议 给 每 台 主 机 配置 大 于 32GB 
的 内 存 ， 以 保证 你 的 工作 负载 、VSAN 以 及 hypervisor 具 有 足够 的 资源 来 提供 最 佳 的 用 户 体验 。 


2.1.2 ”缓存 和 容量 设备 


随 着 VSAN 6.0 的 发 布 ，VMware 推 出 了 全 新 的 全 闪存 版 本 的 VSAN。 在 版 本 5.5 时 ，VSAN 只 支持 混 合 配 置 。 混 合 配 置 是 
内 存 设备 来 做 缓存 层 而 用 磁盘 来 组 成 容量 层 的 一 种 配置 方式 。 在 全 闪存 版 本 中 ， 缓 存 层 和 容量 层 都 是 由 闪存 设备 来 构成 的 。 用 作 
缓存 层 和 容量 层 的 内 存 设 备 往往 束 性 能 和 寿命 来 说 是 不 同等 级 的 内 存 设备 。 这 使 你 在 某 种 程度 上 只 需要 花费 SAS 磁 盘 的 成 本 束 可 
以 创建 全 闪存 配置 。 


2.1.3 ”ESXi 主机 引导 的 考虑 因素 





为 基于 VSAN 的 基础 染 构 安 六 ESXI 时 ， 把 ESXi 镜 像 安 六 在 什么 地 方 有 多 种 选择 : 本 地 磁盘 、USB 闪 存 驱 动 器 、SD 卡 或 
SATADOM 设 备 。 注 意 ， 对 SATADOM 设 备 的 支持 仅 从 VSAN 6.0 开 始 ， 这 些 设备 在 最 初版 本 的 VSAN 中 是 不 被 文 持 的 。 写 作 本 
书 时 ， 当 前 版 本 的 VSAN 版 本 6.2 不 支持 ESXI 的 无 状态 启动 ( 目 动 部 署 方 式 ) 。 选 择 将 ESXi 安 六 到 USB 闪 存 或 SD 卡 的 额外 好 处 是 
无 须 为 镜像 滔 费 一 块 磁盘 ， 于 是 这 块 磁盘 融 可 以 检 VSAN 用 作 创建 分 布 式 的 、 共 享 的 VSAN 数 据 人 存储 ， 来 部 署 虚拟 机 。 不 过 ， 这 
种 方法 有 一 些 缺点 ， 例 如 缺乏 空间 来 保 仓 日 志文 件 和 VSAN trace 文 件 。 


对 于 内 存 小 于 等 于 512GB 的 主机 来 说 ， 是 可 以 从 USB 或 SD 卡 引 导 的 。 对 于 内 存 配置 超过 了 512GB 的 主机 ，ESXi 需 要 安 六 在 
一 块 本 地 磁盘 或 SATADOM 设 备 上 。 这 将 在 第 10 章 中 详细 探讨 。 请 注意 ， 当 将 ESXi 安 闪 企 USB 或 SD 卡 上 的 时 候 ， 设 备 应 该 至 少 
有 8GB 内 存 。 


如 果 主 机 没有 USB 或 3SD 卡 而 把 ESXi 安 丢人 在 一 块 本 地 磁盘 上 时 ， 这 块 本 地 磁盘 将 无 法 加 入 一 个 磁盘 组 ， 因 而 无 法 用 于 提供 存 
储 给 VSAN 数 据 仓储 。 正 因为 如 此 ， 在 磁盘 插 模 数量 有 限 的 环境 中 ， 我 们 建议 使 用 UsB/SD 或 SATADOM。 


2.2 VSAN 的 要 求 


在 开始 局 用 VSAN 之 前 ,我 们 强烈 建议 vSphere 管 理 员 首先 验证 一 下 环境 是 人 否 满 足 了 所 有 的 前 提 条 件 和 要 求 。 下 面 的 列表 中 
我 们 还 增加 了 一 些 从 基础 架构 的 角度 来 增强 弹性 的 建议 : 


` 标准 数据 中 心 部 着 时 至 少 3 台 ESXi 主 机 ; 用 于 远程 办 公 室 或 分 支 外 公 室 的 小 型 部 着 时 ， 至 少 2 台 ESXi 主 机 和 一 台 见 证 主机 


- 每 台 ESXi 主 机 至 少 6GB 内 存 


: VMware vCenter Server 


-至少 一 个 容量 层 设备 。 对 于 给 VSAN 数 据 存 储 提 供 存 储 的 主机 而 言 ， 混 合 配置 至 少 一 块 磁盘 ， 全 闪存 配置 至 少 一 块 闪存 设 


. 至 少 一 个 缓存 层 设 备 。 对 于 给 VSAN 数 据 存 储 提 供 存 储 的 主机 而 言 ， 无 论 是 混合 配置 还 是 全 闪存 配置 ， 都 需要 至 少 一 块 闪 
存 设 备 


:一 个 局 动 设 备用 于 安 闭 ESXi 
“ 至 少 一 个 磁盘 控制 器 。 推 荐 直通 模式 或 JBOD 模 式 的 磁盘 控制 器 


- 用 于 VSAN VMkernel 的 专用 网 络 端口 ， 推 荐 万 兆 以 太 网 ， 但 是 对 于 小 型 混合 配置 来 说 千 兆 以 太 网 也 是 支持 的 。 若 使 用 万 兆 


以 太 网 络 ， 网 络 适配器 无 需 专 用 于 VSAN 流 量 ， 可 以 和 其 他 类 型 的 流量 (例如 管理 流量 或 vMotion 流 量 等 ) 共用 


: VSAN 网 络 必须 支持 L2 或 L3 组 播 


2.2.1 VMware 硬件 兼容 性 措 南 


在 开始 安装 配置 ESXi 之 前 ， 建 议 先 根据 VMware 官 方 的 VSAN 兼 容 性 指南 来 验证 一 下 硬件 配置 。VSAN 兼 容 性 指南 可 以 在 下 
面 的 网 站 找到 : 


http://vmwa.re/vsanhcl 


VSAN 6.0 的 上 友 布 市 来 了 一 款 新 的 健康 检查 工具 ， 它 除了 可 以 检查 VSAN 和 群集 的 状态 之 外 还 有 一 些 其 他 特性 ， 其 中 之 一 残 是 
可 以 根据 VMware 的 兼容 性 提 南 来 验证 VSAN 和 群集 的 磁盘 控制 器 硬件 是 人 否 爱 文 持 。 管 理 员 可 以 下 载 一 个 文件 ， 其 中 包含 最 新 版 本 
的 硬件 、 驱 动 程序 、 固 件 版 本 以 及 健康 检查 工具 ， 用 它 来 检验 配置 是 否 正 确 。 


VSAN 对 磁盘 、 闪 存 设备 和 磁盘 控制 器 有 严格 的 要 求 。 因 为 选择 众多 ， 配 置 一 台 寺 美 的 VSAN 主 机 可 能 是 一 件 复杂 的 事情 。 
在 逐个 讨论 这 些 组 件 之 前 ， 你 应 该 知道 还 有 另外 一 个 选择 : VSAN Ready Nodes, 


2.2.2 VSAN Ready Nodes 


较 之 自行 选择 组 件 ，VSAN Ready Nodes 是 一 个 很 棒 的 替代 方案 。 采 用 Ready Nodes 也 是 搭建 一 套 VSAN 的 推荐 做 法 。 很 
多 厂商 帮 你 做 好 了 功课 ,创建 了 这 些 叫 做 VSAN Ready Nodes 的 硬件 组 合 。 这 些 VSAN Ready Nodes 由 经 过 测试 和 认证 的 硬件 
组 成 ， 在 我 们 看 来 ， 它 们 可 以 提供 额外 的 保证 。VSAN Ready Nodes 也 已 经 列 在 兼容 性 指南 列表 中 了 ， 如 图 2-1 所 示 。 
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STEP 1: Refer to the "Virtual SAN Hardware Quick Reference Guide" for guidance on how to build a Virtual SAN Ready Node. 


Current Results: [O] 


STEP 2: To build a Virtual SAN Ready Node: 
Select your Virtual SAN Ready Node of choice based on following certified Ready Nodes. 


Ready Node Types: 
All 


Ready Node Supported Releases: 


Ready Node Vendors: 





All 
Cisco 
DELL 





All 

ESXI 6.0 U1 
ESXi 6.0 
ESXI 5.5 U3 
ESXI 5.5 U2 
ESXI 5.5 U1 


Fujitsu 
Hewlett Packard Enterprise 
Hitachi 


Ready Node Generation:@ 


Ready Node Profile: 
A 


HY-8 Series 
AF-6 Series 





Ready Node Server Type: 





All 
Gen1- 6G 
Gen2 - 12G 








AI 
Blade 
Rackmount 








Raw Storage Capacity (TB): 





Keyword: Posted Date Range: 
All 


Update and View Results Reset 


B a 





图 2-1 Virtual SAN Ready Nodes 配 置 


对 于 那 类 更 具有 冒险 精神 的 管理 员 ， 或 者 那些 偏好 某 个 未 在 VSAN Ready Nodes 兼 容 指 南 中 列 出 的 品牌 或 厂商 的 管理 员 ， 
就 必须 天 注 各 个 组 件 (例如 存储 控制 器 和 磁盘 驱动 器 ) 的 兼容 性 。 下 面 几 节 将 重点 探 寺 这些 需要 考虑 的 因素 。 


2.2.3 ”存储 控制 器 


每 台 加 入 VSAN 和 群集 的 ESXi 主 机 都 需要 一 个 磁盘 控制 器 。 这 个 磁盘 控制 器 最 好 具有 通常 称 为 朋 通 模式 (Pass-through 
mode) 、HBA 模 式 或 者 JBOD 模 式 的 功能 。 换 而 言 之 ， 磁 盘 控 制 器 应 该 能 够 直接 控制 底层 作为 独立 驱动 器 的 磁盘 或 固态 硬盘 
(SSD) ， 而 无 须 经 过 其 上 的 RAID 层 。 于 是 ，ESXI 的 操作 束 可 以 无 须 被 控制 器 截取 并 解释 ， 而 直接 对 磁盘 进行 。 为 虚拟 机 定义 
策略 属性 (诸如 可 用 性 和 性 能 属性 ) 时 ，VSAN 会 负责 磁盘 的 RAID 配 置 。 在 VSAN 兼 容 性 指南 中 列 出 了 已 经 成 功 通过 测试 的 磁盘 
控制 器 。 


在 配置 新 服务 器 的 时 候 ， 每 家 服务 器 厂商 都 有 很 多 不 同 的 磁盘 控制 器 可 供 选择 。 兼 容 性 列表 列 出 一 些 最 单 见 服务 器 品牌 使 用 
的 控制 器 以 及 一 些 党 被 诸如 SuperMicro 和 Quanta 之 类 品牌 使 用 的 通用 LSI 磁 盘 控 制 器 。 在 VSAN 兼 容 性 指南 中 列 出 了 超过 70 种 
不 同型 号 的 磁盘 控制 器 ， 丈 硬件 配置 来 说 提供 了 无 数 种 可 选 组 合 。 


在 某 些 场景 下 ,硬件 可 能 已 购置 完毕 或 者 可 用 的 磁盘 控制 器 不 支持 直通 模式 。 换 句 话说 ， 控 制 嚣 背后 的 设备 并 不 能 直接 被 
ESXi 主 机 所 认 出 。 在 另外 一 些 场景 下 ， 管 理 员 必须 把 每 个 独立 的 磁盘 驱动 器 都 设置 成 RAID-0 之 后 才能 被 ESXi 主 机 识别 出 来 (不 
过 这 首先 需要 确保 它 对 控制 器 来 说 是 有 效 配置 ) 。 再 强调 一 次 ， 兼 容 性 指南 会 询 出 一 款 控 制 器 是 否 文 持 直 通 蛋 式 或 RAID-0 模 
式 ， 或 者 两 者 都 支持 ， 在 配置 磁盘 控制 器 之 前 请 确保 已 经 核对 过 兼容 性 指南 。 此 外 请 注意 兼容 性 指南 还 为 每 一 蒜 独立 的 磁盘 控制 
器 列 出 了 受 支持 的 固件 和 驱动 程序 ， 请 核实 它们 的 版 本 ， 如 有 需要 请 在 部 署 虚 拟 机 之 前 进行 升级 。 


1. 磁 盘 控 制 器 RAID-0 


对 于 不 支持 直通 /HBA/JBOD 模 式 的 磁盘 控制 器 ,VSAN 支 持 通过 RAID-0 配 置 的 磁盘 驱动 器 。RAID-0 的 卷 如 果 在 配置 中 只 包 
含 1 个 磁盘 驱动 器 ， 就 可 以 被 VSAN 使 用 。 这 对 磁盘 和 和 SSD 都 是 一 样 的。 这 个 操作 可 以 通过 磁盘 控制 器 的 软件 或 固件 来 实现 。 管 
理 员 必 须 了 解 ， 当 SSD 使 用 了 RAID-0 配 置 时 ， 往 往 就 不 会 被 VSAN 认 作 一 个 闪存 设备 ， 因 为 此 时 其 闪存 的 特性 被 RAID-0 设 置 屏 
沿 了 。 如 果 这 种 情况 有 友 生 了 ， 你 必须 标注 这 个 磁盘 驱动 器 为 内 仔 设 备 。 这 可 以 通过 vsphere Web 客 户 端 来 实现 。 如 图 2-2 所 示 ， 


ek 


REA AAA, RAXHABIMBURASSEDbNIEHINURSILAE — T ixfSTCESSDTUBÁSE (HDD) 之 间 进 行 相互 转换 。 





还 有 一 个 例子 来 说 明 如 何 解 决 另 一 种 设备 识别 的 问题 一 一 如 何 标注 一 个 设备 为 本 地 (local) 。 在 某 些 环境 中 ， 一 些 ESXi 主 
机 本 地 的 设备 会 被 认 作 为 共享 卷 ， 这 是 因为 某 些 SAS 控 制 器 允许 被 多 个 主机 同时 访问 。 在 这 种 情况 下 ， 尽 管 设备 是 本 地 的 
(local) ， 但 是 它们 会 被 显示 为 共享 的 而 非 本 地 的 (not local) 。 


如 果 你 想 将 一 个 设备 标注 为 内 存 (Flash) 设备 ， 或 是 将 一 个 设备 标准 成 本 地 (Local) 设备 ， 目 VSAN 6.0 起 ， 这 也 可 以 通 
过 vSphere Web 客 户 端 来 进行 了 ， 如 图 2-2 所 示 。 根 据 设 备 的 类 型 及 其 目前 的 标注 ， 菜 单 和 显示 出 来 的 图 标 会 相应 友 生 变化 。 注 
意 ， 只 有 在 相应 的 许可 证 密 钥 已 经 输入 之 后 ， 这 个 功能 才能 被 使 用 。 


当 使 用 RAID-0 而 不 是 直通 模式 的 时 候 ， 必 须 考 虑 某 些 操作 上 的 不 同 。 当 使 用 直通 模式 时 ， 驱 动 器 在 大 多 数 情况 下 都 会 被 直 
接 识别 出 来 ， 无 须 将 其 配置 成 “本 地 ” (local) 或 “固态 硬盘 ” (SSD) 。 而 使 用 RAID-0 时 ， 驱 动 器 会 绑 定 在 某 个 RAID-0 配 置 
上 ， 这 意味 着 驱动 器 和 RAID-0 配 置 是 一 一 对 应 的 。 如 果 这 个 驱动 器 出 现 故 障 且 需要 更 换 一 个 新 的 ， 那 么 这 个 一 一 对 应 的 关系 就 
会 被 打破 ， 新 的 驱动 器 替换 上 来 的 时 候 就 必须 重新 手动 建立 一 个 新 的 RAID-0 配 置 来 与 之 对 应 。 而 且 不 同 的 RAID 控 制 器 配置 方式 
各 不 相同 ， 就 会 产生 额外 的 工作 量 。 而 采用 直通 模式 时 ， 只 需要 简单 地 移 除 并 插入 新 磁盘 即 可 。 不 过 ， 根 据 RAID 控 制 器 的 不 
同 ， 可 能 需要 厂商 的 定制 工具 来 “激活 ”此 设备 。 事 实 上 ， 新 的 RAID-0 卷 可 能 还 是 必须 被 创建 出 来 才能 允许 VSAN 使 用 换 上 来 
的 设备 。 


[4 esxi-a-pref.rainpole.com | Actions ~ 





Getting Started Summary Monitor | Manage | Related Objects 


Settings | Storage | Networking | Alarm Definitions | Tags | Permissions 


44 Storage Devices 





Storage Adapters 民 g | eo | GB All Actionis ~ 


Storage Devices pF 
Name Fe Refresh Capacity Opemtional State Hardware Acceleration Drive Type 


Host Cache Configuration 


Local ATA Disk (naa.500a07510f36d6bc) ll, Rescan Storage 745.21GB | Attached Not supported Flash 


Protocol Endpoints Local ATA Disk (naa.500a07510f86d6b6) Attach 74521GB | Attached Not supported Flash 
Local ATA Disk (naa.500a07510f186d693) Detach 745.21GB | Attached Not supported Flash 
Local ATA Disk (naa.500a07510f86d6c7) Rename... 74521GB | Attached Not supported Flash 
LocalATADisk(HMOATA Micron P42g ® Turn Locator LED on 127 TB | Attached Not supported Flash 


Turn Locator LED off 

Local ATA Disk (n2a.50020751086d683) 8 €. “um Locator LED o 74521GB | Attached Not supported Flash 
7 " Ed] Mark as Flash Disk 

SEAGATE Serial Attached SCSI Disk (n peceber 93151GB Attached Unknown 

Local USB Direct-Access (mpx.vmhba32: Z Erase Partitions... 14.92 GB | Attached Not supported 


Local ATA Disk (naa.500a07510f86d6b8) 745.21 GB Attached Not supported 





图 2-2 ”标注 存储 设备 
2. 性 能 和 RAID 缓 存 


VMware 已 经 对 各 种 不 同类 型 的 磁盘 控制 器 和 RAID 控 制 器 进行 了 很 多 性 能 测试 。 大 多 数 情 况 下 ， 直 通 模式 和 RAID-0 配 置 之 
间 的 性 能 帮 异 可 以 忽略 不 计 。VMware VSAN 兼 容 性 指南 残 每 个 控制 器 列 出 了 哪些 功能 必须 被 局 用 或 禁用 。 


当 使 用 RAID-0 配 置 的 时 候 ， 应 该 禁用 存储 控制 器 的 写 缓存 ， 让 VSAN 获 得 全 部 的 控制 权 。 当 RAID-0 配 置 中 的 存储 控制 器 写 
缓存 无 法 被 完全 禁用 的 时 候 ， 应 该 将 存储 控制 器 的 缓存 配置 成 100% 用 于 读 缓存 ， 这 也 是 一 种 有 效 地 禁用 写 缓存 的 方法 。 主 要 是 
因为 VSAN 具 有 其 目 己 的 缓 仓 机 制 ， 我 们 希望 保证 给 客户 机 操作 系统 的 磁盘 输入 输出 (IO) 可 以 存放 在 持久 性 存储 (BEF) 


中 ， 而 不 是 存放 在 VSAN 无 法 控制 的 磁盘 控制 器 的 缓存 中 。 


224 ”容量 层 设备 


每 一 全 加 入 VSAN 群 集 并 为 VSAN 数 据 存储 提供 存储 的 ESXI 主 机 都 必须 至 少 拥有 一 个 容量 设备 。 额 外 的 容量 设备 显然 可 以 提 
供 更 多 容量 ， 并 可 能 提升 性 能 ， 因 为 虚拟 机 仓储 对 象 可 以 家 条 市 化 并 分 散 到 多 个 设备 上 去 。 此 外 ， 更 多 数量 的 容量 设备 可 以 提供 
更 多 容量 均衡 选择 。 当 一 块 磁盘 用 到 80% 容 量 的 时 候 ，VSAN 会 目 动 地 将 其 上 的 组 件 移动 到 该 主机 的 其 他 磁盘 上 或 其 他 主机 上 的 
磁盘 上 ， 以 避免 此 磁盘 耗 尽 容量 。 


加 入 全 闪存 VSAN 配 置 的 ESXi 主 机 会 将 闪存 设备 用 于 容量 层 。 


每 个 容量 层 设备 都 会 成 为 一 个 磁盘 组 (disk group) 的 一 部 分 。 每 台 VSAN 主 机 最 多 可 以 具有 :5 个 磁盘 组 ， 每 个 磁盘 组 可 以 


包 合 最 多 7 个 容量 设备 ， 因 此 最 多 可 达 35 个 容量 设备 ， 如 图 2-3 所 示 。 





| ”每 台 主 机 : 最 多 5 个 磁盘 组 。 每 个 磁盘 组 : 1 SSDH ~ 7 块 磁盘 0| 





图 2-3 ”磁盘 和 磁盘 组 最 大 配置 


从 7200 RPM 的 SATA 驱 动 器 到 15K RPM 的 SAS 驱 动 器 ，VSAN 支 持 各 种 类 型 的 磁盘 (都 列 出 在 兼容 性 指南 中 ) 。 尽 管 虚拟 
机 存储 |/O 性 能 大 部 分 是 由 缓存 层 的 闪存 提供 的 ， 还 是 有 必要 指出 任何 来 自 容量 层 的 |/O 操 作 是 和 容量 设备 提供 的 性 能 直接 相关 
联 的 。 一 块 7200 转 的 SATA 磁 盘 的 性 能 当然 和 高 性 能 闪存 不 同 ， 但 是 根据 硬件 厂商 的 不 同 ， 价 格 通常 也 相差 很 多 。 第 9 章 将 提供 
多 个 例子 来 描述 选择 磁盘 设备 的 影响 ， 并 会 介绍 一 个 全 闪存 配置 的 例子 。 


2.25 ”缓存 层 设备 


给 VSAN 群 集 提供 容量 时 ， 无 论 是 混合 配置 还 是 全 闪存 配置 每 全 ESXi 主 机 必须 至 少 拥有 一 个 闪存 设备 。 混 合 配置 中 的 闪存 设 
备 被 VSAN 同 时 用 于 读 缓冲 和 写 缓存。 在 全 闪存 配置 中 ， 闪 和 存 设 备 只 用 作 写 缓 仓 ， 不 过 其 耐用 性 往往 比 用 于 容量 层 的 闪存 设备 要 
高 得 多 。 人 在 全 闪存 配置 中 无 须 配 置 读 缓存 ， 因 为 从 同 为 内 存 的 容量 层 设备 读 取 ， 性 能 已 然 是 极 快 的 。 


这 个 闪存 设备 位 于 一 组 容量 设备 的 前 问 。 每 个 磁盘 组 都 需要 一 个 内 存 设备 。VSAN 中 每 个 主机 最 多 可 以 有 5 个 磁盘 组 ， 因 此 
每 台 主 机 最 多 可 以 有 5 个 闪存 设备 。 一 台 主 机 中 的 内 存 容量 越 大 ， 提 供 的 性 能 束 越 高 ， 因 为 更 多 的 Il/O 可 以 被 缓冲 /缓存 。 


为 了 得 到 最 佳 的 VSAN 性 能 ， 请 选择 高 性 能 指标 的 闪存 设备 。VMware 支 持 多 种 类 型 的 内 存 ， 范 围 从 SSD 到 PCle 闪 存 设 备 都 
文 持 。VMware 已 在 其 VSAN 兼 容 性 指南 中 友 布 了 一 个 受 文 持 的 PCle 内 存 设备 、SSD 和 和 NVM 设备 的 清单 。 在 购买 新 设备 之 前 ， 
请 先 查 询 VMware 兼 容 性 指南 以 确保 目 己 的 配置 是 受 支 持 的 。 


下 面 列 出 的 是 VMware 兼容 性 指南 中 闪存 设备 的 分 级 : 

- Class A: 每 秒 写 入 2500~5000 次 (已 从 兼容 性 指南 中 移 除 ) 
- Class B: 每 秒 写 入 5000~10000 次 

- Class C: 每 秒 写 入 10000~20000 次 

- Class D: 每 秒 写 入 20000~30000 次 

- Class E: 每 秒 写 入 30000~100000 次 

- Class F: 每 秒 写 入 100000+ 次 


有 个 问题 常会 被 提起 : “能 否 使 用 消费 级 别 的 SSD? 这 样 VSAN 能 工作 吗 ? ”从 技术 角度 来 看 ， 使 用 消费 级 别 的 
99D，V3SAN 也 可 以 完美 地 工作 。 然 而 ， 大 多 数 消费 级 别 的 SSD 的 使 用 寿命 较 短 ， 耐 用 性 保证 较 低 ， 而 且 性 能 差异 较 大 (往往 性 
能 较 差 ) ， 而 且 还 会 有 不 可 预料 的 延迟 波动 ， 泄 围 从 蓝 秒 到 秒 级 ， 这 融 是 为 什么 Class A (的 闪存) 被 从 兼容 性 指南 中 移 除 的 主 
要 原因 。 尽 官 从 价格 角度 来 看 ， 消 费 级 别 的 SSD 可 能 颇具 吸引 力 ， 但 是 我 们 想 强 调 VSAN 无 论 是 在 读 还 是 写 操作 上 都 非常 倚重 内 
存 来 进行 组 ;中 和 缓存 ， 当 (闪存) 驱动 器 出 现 故 障 的 时 候 会 影响 到 SDD 绑 定 的 整个 磁盘 组 。 闪 存 设备 故障 时 ， 整 个 磁盘 组 都 会 
饿 标注 为 不 健全 的 。 因 此 我 们 在 兼容 性 指南 中 加 入 了 第 2 个 重要 的 表格 一 一 | 闪存 设 备 耐久 等 级 : 


: Class A: >=365TBW 
: Clas B: >=1825TBW 
: Class C: >=3650TBW 


: Class D: »-7300TBW 


在 这 里 ， 等 级 越 高 设备 就 越 可 靠 ， 其 平均 寿命 也 越 长 。 如 果 你 不 知 TBW 是 什么 意思 ， 让 我 们 来 告诉 你 : TBW 指 的 
是 “Terabytes 写 入 ”， 就 是 该 设备 保证 可 以 持久 写 入 的 数量 。 


在 调研 了 各 种 各 样 的 SSD 和 PCle 的 闪存 设备 之 后 ， 我 们 党 得 要 从 中 推荐 一 个 品牌 或 某 一 种 类 型 的 内 存 是 不 可 能 的 。 选 择 的 
决策 应 该 根据 预算 的 限制 、 服 务 器 平台 的 厂商 服务 ， 以 及 最 为 重要 的 运行 在 VSAN 上 的 虚拟 机 上 的 应 用 程序 的 需要 这 些 因素 综合 
决定 。 


2.3 网 络 要 求 


这 一 忆 将 从 网 络 角 度 探讨 VSAN 的 需求 和 前 提 条 件 。VSAN 是 一 种 分 布 式 的 存储 解决 方案 ， 因 此 它 对 主机 之 间 的 通信 和 网络 非 
党 倚重 ， 其 关键 是 稳定 性 和 可 靠 性 。 


2.3.1 ”网 络 接口 卡 


每 台 ESXi 主 机 必须 至 少 具有 一 块 干 兆 以 太 网 络 接 口 卡 专用 于 VSAN 混 合 配 置 ， 而 全 闪存 配置 必须 使 用 万 兆 网 卡 。 然 而 ， 作 为 
最 佳 实践 ，VMware 和 本 书 作 者 都 推荐 使 用 万 兆 网 卡 。 出 于 多余 的 考虑 ， 可 以 在 每 一 台 主 机 上 都 配置 网 卡 绑 定 。 我 们 认为 这 是 最 
诗 实践 ， 但 这 并 不 是 构建 一 个 完整 功能 的 VSAN 和 群集 所 必需 的 。 


2.3.2，” 受 支持 的 虚拟 交换 机 类 型 


无 论 是 VMware vSphere Distributed Switch Y TM (VDS) 还 是 VMware 标准 交换 机 (VSS) 均 支 持 VSAN。 使 用 分 布 式 
交换 机 有 具有 一 些 优点 ， 这 在 第 3 章 会 详细 介绍 。 其 他 类 型 的 虚拟 交换 机 类 型 未 被 仔细 测试 过 是 人 否 可 以 用 于 VSAN。VDSs 的 许可 证 
已 包含 在 VSAN 之 中 。 


2.3.» Eig —JER 


VSAN 支 持 二 层 (交换 ) 或 三 层 (路 由 ) 网 络 。 最 初 的 友 布 版 本 并 不 支持 三 层 网 络 ， 不 过 到 6.0 版 束 完 全 支持 了 。 必 须 强 调 
VSAN 依 赖 组 播 通 信 ， 这 意味 着 不 绾 是 二 层 还 是 三 层 都 必须 允许 组 播 流 量 通过 ， 对 于 三 层 来 况 ， 还 意味 着 组 播 流量 必须 能 在 网 络 
间 补 路由。 我们 注意 到 在 过 去 的 2 年 间 我 们 和 客户 的 很 多 对 话 都 提 到 了 三 层 组 播 通常 默认 是 不 开局 的 ， 因 此 记得 在 配置 之 前 要 先 
和 网 络 团队 沟通 好 。 


2.3.4 VMkernel 网 络 


在 每 台 想 要 加 入 VSAN 和 群集 的 ESXi 主 机 上 ， 都 必须 创建 一 个 用 于 VSAN 通 信 的 VMkernel 新 口 。 这 个 标记 为 Virtual SAN 
Traffic (虚拟 SAN 流 量 ) 的 VMkernel 新 口 是 自 vSphere 5.5 中 新 出 现 的 类 型 。 这 个 端口 用 于 群集 内 节点 之 间 的 通信 ， 并 且 当 一 
个 特定 的 虚拟 机 运行 在 某 一 人 台 ESXi 主 机 上 而 构成 这 台 虚 拟 机 的 文件 的 真正 数据 块 又 落 在 群集 中 另外 一 台 ESXi 主 机 上 的 时 候 ， 这 个 
端口 也 用 于 读 和 写 操 作 。 在 这 种 情况 下 ，IMO 将 通过 群集 内 主机 间 的 网 络 传递 ， 如 图 2-4 所 示 ，VMkernel 接 口 vmk2 用 于 VSAN 
群集 内 所 有 主机 之 间 的 VSAN 流 量 传输 ， 位 于 esxi-01 上 的 虚拟 机 所 有 的 读 和 写 操作 都 要 用 到 VSAN 网 络 。 





图 2-4 VSAN 流 量 


2.85 ”VSAN 网 络 流量 


VSAN 使 用 的 协议 是 个 专 有 协议 。 就 像 YMware 的 vMotion、Fault Tolerance, vSphere Replication 以 及 其 他 VMware 专 
有 协议 等 其 他 VMware 产 品 和 特性 一 样 ，VMware 没 有 公布 这 个 协议 的 规范 。VSAN 网 络 用 于 3 种 不 同 的 流量 类 型 ， 由 于 这 些 流 
量 市 来 了 对 物理 网 络 交 换 机 配置 的 一 些 要 求 ， 所 以 了 解 清楚 它们 是 怎么 回 事 是 很 重要 的 。 





. 组 播 心跳 (Multicast heartbeat) 


流量 相 比 ， 组 播 心 跳 只 产生 非常 少 的 数据 包 。 


这 类 流量 用 来 发 现 加 入 到 群集 中 的 所 有 主机 ， 并 且 判 断 主 机 状态 。 和 其 他 类 型 的 


. 来 自 群集 服务 (CMMDS) 的 组 播 和 单 播 数 据 包 一 一 这 类 流量 进行 元 数据 〔 例 如 对 象 放 置 和 统计 信息 ) 的 更 新 。 它 比 心跳 


产生 的 网 络 流量 多 一 些 ， 但 是 仍然 只 占 非 常 小 的 百分比 。 





- 存储 流量 (例如 读 和 写 ) 这 是 网 络 流量 的 主要 部 分 。 群 集中 任何 主机 和 其 他 主机 的 通信 都 是 通过 单 播 进行 的 。 





为 了 保证 VSAN 主 机 可 以 正常 通信 ， 要 求 物理 交换 机 允许 组 播 的 流量 。 如 果 VSAN 群 集中 的 ESXi 主 机 之 间 无 法 通过 VSAN 流 
量 网 络 进 行 组 播 通 信 ，VSAN 群 集 将 无 法 正确 形成 。 


组 播 是 一 个 关键 的 组 成 部 分 ， 尽 省 它 仅 占 整个 网 络 流 量 中 很 小 的 比例 。 由 于 存储 的 读 写 I|/O 都 要 经 过 网 络 ，VSAN 和 群集 中 大 


部 分 流量 都 是 存储 流量 ,保证 最 优 的 网 络 市 完 是 非常 重要 的 。 如 果 可 能 不 要 使 用 那些 把 组 播 流量 转换 成 广播 流量 方式 传输 的 低 端 
交换 机 ，VMware 建 议 使 用 真正 支持 组 播 流 量 的 物理 交换 机 .。 


23.6 Egg 


VSAN 网 络 支 持 巨 型 帧 (jumbo frame) 。 我 们 相信 ， 每 个 VSAN 部 署 都 是 不 同 的 ， 不 管 是 从 服务 器 硬件 的 角度 来 看 还 是 从 
网 络 硬 件 的 角度 来 说 都 是 如 此 。 正 因为 如 此 ， 很 难说 应 该 推荐 使 用 还 是 反对 使 用 巨型 帧 。 此 外 ， 在 非 全 新 配置 的 环境 中 实施 巨型 
帧 会 市 来 一 综 运 言 上 的 影响 。 如 果 巨 型 帧 的 配置 没 能 从 痛 到 闯 保 持 一 致 ， 融 可 能 出 现 网 络 故 障 。 我 们 曾 做 过 一 毕 测试 试图 证 明 巨 
型 帧 的 优点 ， 但 是 目前 还 未 得 出 结论 。 在 某 尝 场景 下 测 得 的 性 能 提升 了 15% 同 时 也 观察 到 了 CPU 使 用 率 的 下 降 ， 在 另外 一 些 场 
景 中 没有 测 得 性 能 的 提升 和 CPU 使 用 率 的 下 降 。 


在 一 个 成 融 运 豆 的 环境 中 ， 在 一 致 的 配置 可 以 得 到 保证 的 前 提 下 ， 管 理 员 可 目 行 决定 是 否 及 用 巨型 帧 。 


2.8.7 WFE 


另 一 个 优化 网 络 性 能 的 可 行 方法 是 捆绑 网 络 接口 卡 。ESXi 主 机 上 的 网 络 接口 卡 绑 定 对 VSAN 是 透明 的 。 网 卡 绑 定 有 很 多 种 不 
同 的 方式 。 为 了 使 VSAN 可 以 利用 多 个 物理 网 卡 痛 口 ， 可 以 实施 物理 绑 定 (LACP) 或 者 创建 多 个 VSAN VMkernel 接 口 。 第 3 章 
将 深入 探讨 配置 的 细 书 及 各 个 参数 。 然 而 ， 要 注意 的 是 ， 无 法 保证 VSAN 网 络 流量 是 人 否 能 在 同一 时 间 内 完全 利用 多 个 物理 网 卡 的 
全 部 市 宽 ， 影 响 的 因素 很 多 ， 包 括 群集 的 大 小 、 网 卡 的 数量 和 不 同 IP 地 址 的 数量 。 


2.3.8 ”网 络 |/O 探 制 


尽管 建议 使 用 万 兆 网卡 ， 但 是 并 非 要 将 这 些 万 兆 网 卡 仪 仅 专 用 于 VSAN 网 络 ， 它 们 是 可 以 与 其 他 网 络 流量 共享 的 。 然 而 ， 你 
可 能 需要 考虑 使 用 网 络 |/O 控 制 (NIOC) 来 保证 在 网 络 拥 堵 的 情况 下 VSAN 流 量 仍 能 获得 一 定数 量 的 网 络 市 冤 。 尤 其 是 当 这 块 万 
兆 网 卡 和 诸如 vMotion 之 类 的 流量 共享 时 ， 因 为 声名 狼藉 的 vMotion 可 是 会 在 任何 可 能 的 情况 下 吃 掉 所 有 带宽 的 哦 。 使 用 NIOC 
必须 创建 分 布 式 交换 机 (VDS) ， 因 为 它 不 支持 标准 交换 机 (VSS) 。 幸 运 的 是 ， 分 布 式 交 换 机 已 经 包含 在 VSAN 许 可 证 中 了 。 


cu 


} 


第 3 草 会 列举 各 种 例子 来 说 明 在 不 同类 型 的 网 络 配 置 的 情况 下 应 该 怎样 配置 NIOC。 


2.4 VSAN 延 伸 和 群集 


VSAN 延 伸 群 集 的 功能 是 在 VSAN 6.1 加 入 的 ， 它 使 你 可 以 跨 (位 于 不 同 站 点 的 ) 数据 中 心 部 署 虚拟 机 组 件 ， 如 果 其 中 一 个 
站 点 或 数据 中 心 友 生 了 故障 ， 虚 拟 机 可 以 在 剩 下 的 站 点 被 重启 。 对 于 VSAN 延 伸 群 集 来 说 有 很 多 需要 考量 的 因素 ， 包 括 延 迟 和 市 
宽 ， 不 仅仅 是 数据 站 点 之 间 的 延迟 和 带宽 ， 还 需要 考虑 和 见证 站 点 之 间 的 延迟 和 带宽 。 这 些 内 容 将 在 第 8 章 详细 深入 地 进行 讲 
解 。 不 过 为 了 便于 读者 ， 这 里 我 们 还 是 会 先 列 出 部 分 基本 的 准则 : 


- 数据 站 点 之 间 的 RITT 最 大 5 毫秒 (必须) 
- 数据 站 点 和 见证 站 点 之 间 的 RTT 最 大 200 毫 秒 (必须 ) 
- 数据 站 点 之 间 的 带宽 10Gbps 


- 数据 站 点 和 见证 站 点 之 间 的 带宽 100Mbpbs 


2.5 VSAN 2o RUV EZ 2328/23») 2x28 (ROBO) 
VSAN 2T aROBORIERSSESKRV SANSE(RBESERURPS EUG [SIEESSRUBSXI SESS Ek, 2T RAROBOBGBISIEEUZEES 
VSAN 6.1 起 发 布 的 。ROBO 配 置 需要 满足 以 下 的 要 求 : 
: ROBO 站 点 之 间 以 及 ROBO 和 中 央 见 证 站 点 之 间 的 RIT 最 大 为 500 毫 秒 (必须 ) 
“ ROBO 站 点 到 中 央 见 证 站 点 之 间 的 带宽 1Mbps 
-ROBO 站 点 主机 之 间 的 网 络 连接 为 1Gbps 
Kiin 


MREBRVSANHJ, —ÆESXI X Ain ARAA EVSANEŽ EASES ŁEM EFA (包括 入 口 和 出 口 两 个 方向 ) . Kimis 
用 于 群集 主机 之 间 的 通信 以 及 在 ESXi 主 机 上 的 存储 提供 程序 之 间 进 行 通信 传输 。 表 2-1 列 出 了 一 些 VSAN 专 用 的 网 络 端口 。 需 要 
明确 指出 的 是 ，VSAN 群 集中 流量 中 的 98% (或 更 多 ) 都 是 运行 在 2233 跨 口上 的 RDT 流 量 。 


表 2-1 VSAN 居 用 的 ESXi 端 口 和 协议 


协议 
UDP 


Cmmds 
RDI [CP 


Vsanvp TEF 


2.6 小结 





尽管 配置 VSAN 事 实 上 只 需要 两 次 姐 标 点 击 即 可 完成 ， 但 是 花 点 时 间 检 查 并 保证 所 有 前 提 条 件 都 已 满足 且 准 备 工作 都 已 经 到 
位 是 非常 重要 的 。 稳 定 的 存储 平台 要 从 基石 开始 打造 。 在 开始 进入 第 3 章 之 前 ， 你 应 该 册 回 顾 一 下 这 个 检查 列表 来 确认 所 有 前 提 
条 件 都 已 经 满足 了 : 


- 建议 vSphere 6.0 U2 
至 少 3 侣 主机 
- 每 台 主 机 至 少 6GB 内 存 ， 建 议 最 少 32GB 
` 主机 内 存 超过 512GB 时 ， 不 支持 USB 闪 存 驱 动 器 /SD 卡 ，ESXi 必 须 安 装 在 磁盘 上 
- 使 用 认证 的 磁盘 控制 器 
: 每 台 提 供 容 量 的 主机 至 少 一 个 认证 的 闪存 设备 
- 每 台 提 供 容 量 的 主机 至 少 一 块 认证 的 磁盘 或 内 存 设备 
- 专用 于 VSAN 的 千 兆 网 卡 或 者 共享 的 万 兆 网 卡 
` 在 VSAN 网 络 (二 层 或 三 层 ) 上 启用 组 播 
下 面 列 出 的 额外 建议 不 是 实施 一 个 完整 功能 的 VSAN 所 必需 的 ， 但 是 对 于 生产 环境 来 说 或 许 也 是 必要 的 : 
- 用 于 VSAN 的 网 络 交换 机 宛 余 性 
- 用 于 VSAN 的 网 卡 宛 余 性 
- 实施 端 到 端的 一 致 的 巨型 帧 


- 给 VSAN 流 量 提供 QoS 的 NIOC 


第 3 章 VSAN 的 安装 与 配置 


本 草 有 具体 摘 述 安 竣 和 配置 的 过 程 ， 以 及 在 进行 VSAN 群 集 部 署 之 前 可 能 需要 考虑 的 所 有 初始 准备 工作 的 步骤 。 你 将 学 到 如 何 
正确 创建 一 个 网 络 和 存储 设备 的 知识 ， 以 及 一 些 关 于 如 何 部 署 最 优 的 VSAN 环 境 的 有 用 技巧 和 窃 门 。 


3.1 VSAN 网 络 


网 络 连 接 是 任何 VSAN 和 群集 的 心脏。VSAN 群 集 的 主机 不 仅 将 网 络 用 于 虚拟 机 MO， 还 用 于 主机 间 的 状态 通信 。 一 致 且 正 确 
的 网 络 配置 是 VSAN 部 署 成 功 的 关键 。 由 于 大 多 数 磁盘 MO 会 往返 于 一 台 远 程 主 机 ， 因 此 VMware 建议 使 用 万 兆 以 太 网 基础 以 
构 。 应 该 指出 的 是 ， 尽 管 对 于 混合 配置 干 兆 以 太 网 也 完全 受 支 持 , 但 在 大 规模 部 署 时 它 可 能 会 成 为 尊 希 所 在 。 


VMware vSphere 提 供 了 两 种 不 同 的 虚拟 交换 机 类 型 ， 这 两 者 都 可 以 用 于 VSAN。 


: VMware 标 准 虚 拟 交 换 机 (VSS) 提供 了 从 虚拟 机 和 VMkernel 端 口 到 外 部 网 络 的 连接 ， 但 是 它 仅 存在 于 一 人 台 EESXi 主 机 本 
地 。 


: VSphete 分 布 式 交换 机 (VDS) 为 横 跨 多 台 ESXi 主 机 的 虚拟 交换 机 管理 提供 了 集中 控制 。 除 了 VIMwate 标 准 虚 拟 交 换 机 可 以 
提供 的 功能 之 外 ， 它 还 可 以 提供 额外 的 网 络 特 性 ， 例 如 网 络 L/O 控 制 (NIOC) ， 可 以 为 你 的 网 络 提供 服务 质量 管理 (QoS) 。 尽 


管 VDS 通 常 需 要 特定 的 vSphere 版 本 ， 但 是 VSAN 已 经 包含 了 VDS 许 可 ， 而 不 管 你 正在 运行 的 是 什么 版 本 的 vSphere。 


3.2 ”为 VSAN 服 务 的 VMkernel 网 络 


所 有 参与 VSAN 网 络 的 ESXi 主 机 都 需要 相互 通信 。vSphere 5.5 引 入 了 一 个 新 的 VMkernel 类 型 ， 叫 做 Virtual SAN 
Traffic (虚拟 SAN 流 量 ) 。 只 有 当 VSAN VMkernel 端 口 在 加 入 到 VSAN 群 集 的 每 一 台 ESXi 主 机 上 都 存在 的 时 候 ，VSAN 群 集 才 
会 成 功 构建 起 来 。 在 构建 VSAN 和 群集 之 前 ，vSphere 管 理 员 必须 在 每 一 台 群 集 内 的 ESXi 主 机 上 都 创建 一 个 VSAN VMkernelimL] 
(参见 图 3-1) 。 


esx1-02 





用 于 VSAN 群集 内 部 流量 传输 的 YMkernel 接口 


图 3-1 ”用 于 VSAN 群 集 内 流量 传输 的 VMkernel 接 口 


如 果 VSAN 没 有 VMkernel 网 络 ， 群 集 就 无 法 成 功 构建 。 如 果 VSAN 群 集 内 的 ESXi 主 机 之 间 无 法 建立 通信 ， 只 有 一 台 ESXi 主 


机 会 加 入 进 VSAN 和 群集 ， 其 他 ESXi 主 机 将 无 法 加 入 。 这 仍然 会 生成 一 个 新 的 数据 仓储 ， 但 是 每 台 主 机 都 只 能 看 见 目 己 是 这 个 数据 
仓储 的 一 部 分 。 当 群集 中 的 ESXi 主 机 之 间 出 现 通信 困难 的 时 候 ， 会 显示 一 条 和 警 千 消 息 。 如 果 人 在 所 有 VMkernel 痛 口 都 创建 出 来 之 
前 束 建 六 了 和 群集， 同样 会 显示 一 条 关于 主机 之 间 存 在 通信 困难 的 警告 消息 。 直 到 所 有 的 VMkernel 端 口 都 创建 完成 ， 通 信 建 立 起 
来 后 ， 群 集 才 会 成 功 构建 起 来 。 


3.3 VSAN 网 络 配置 之 VMware 标准 交换 机 


通过 VMware 标准 交换 机 创建 一 个 用 于 VSAN 网 络 流量 的 端口 组 是 相对 简单 的 。 在 安装 ESXi 主 机 的 时 候 ， 一 个 VMware 标准 
交换 机 已 经 自动 创建 ， 并 用 来 承载 ESXi 网 络 管理 流量 和 虚拟 机 流量 。 可 以 使 用 这 个 现存 的 标准 交换 机 以 及 与 之 天 联 的 与 外 部 网 络 
通信 的 上 行 链 路 来 创建 一 个 用 于 VSAN 流 量 的 新 的 VMkernel 旺 口 。 或 者 可 以 选择 为 VSAN 网 络 流量 的 VMkernel 辛 口 创建 一 个 亲 
的 标准 交换 机 ( 见 图 3-2) ， 并 为 它 选择 一 些 新 的 上 行 链 路 。 


v^ 1 Select connection type Select target device 


Select a target device for the new connection. 
3 Create a Standard Switch C) Select an existing distributed port group 
4 Connection settings Browse 
4a Port properties 


C.) Select an existing standard switch 
4b IPv4 settings 


| Browse... 


5 Ready to complete 
(*) New standard switch 





Finish Cancel 
aH 


zzi 





图 3-2 添加 网 络 向 导 : 虚拟 交换 机 选择 /创建 


在 这 个 例子 中 ， 我 们 已 经 决定 创建 一 个 新 的 标准 交换 机 或 vSwitch。 随 着 添加 网 络 向 导 ， 在 为 这 个 新 的 标准 交换 机 选择 合适 
的 上 行 链 路 之 后 ， 将 进行 端口 属性 配置 (如 图 3-3 所 示 ) 。 在 这 里 将 为 YMkernel 端 口 选择 合适 的 网 络 服 务 。 对 VSAN 而 言 ， 必 须 
选中 并 启用 Virtual SAN traffic (虚拟 SAN 流 量 ) 。 


日 10.160.32.203 - Add Networking 


w^ 1 Select connection type Port properties 
Specify VMkernel port settings. 
v” 2 Select target device 


3 Connection settings VMkernel port settings 


3a Port properties 
Network label: VMkernel 
3b IPv4 settings 


VLAN ID: None (0) i| 





4 Ready to complete 


IP settings: (P4 |: 


TCP/IP stack: [Dat ^  [-JO 





Avallable services 


Enable services: [ ] vMotion traffic 
[_] Provisioning traffic 
[_] Fault Tolerance logging 
[ ] Management traffic 
[| vSphere Replication traffic 
[_] vSphere Replication NFC traffic 
[v] Virtual SAN traffic 





H3-3 ”在 端口 上 局 用 虚拟 SAN 流 量 服务 


d 


?H 
dm 


完成 向 导 之 后 ， 你 就 获得 了 一 个 配置 了 传输 VSAN 流 量 的 VMkernel 端 口 组 的 标准 交换 机 。 当 然 ， 你 必须 在 VSAN 群 集中 的 


每 一 人 台 ESXi 主 机 上 重复 这 个 步骤 。 


34 VSAN 网 络 配置 之 vSphere 分 布 式 交 换 机 


VSAN 要 使 用 VDS， 需 要 配置 一 个 分 布 式 噶 口 组 来 承载 VSAN 流 量 。 创 建 分 布 式 端口 组 后 ， 残 可 以 在 独立 的 ESXi 主 机 上 创建 
VMKkerne| 接 口 来 使 用 这 个 分 布 式 端口 组 。 接 下 来 将 详细 摘 述 这 个 过 程 。 


第 1 步 : 创建 分 布 式 交换 机 


尽管 VYMware 官 方 文档 中 没有 明确 指出 应 该 使 用 哪个 版 本 的 分 布 式 交 换 机 ， 但 是 我 们 建议 为 VSAN 创 建 最 新 版 本 的 分 布 式 交 
换 机 ， 这 是 笔者 进行 VSAN 测 试 时 用 的 版 本 。 注 意 ， 当 选 定 分 布 式 交换 机 版 本 之 后 ， 所 有 连接 到 这 个 VDS 的 ESXi 主 机 都 必须 运行 
相同 版 本 的 ESXi， 而 且 选 定 的 分 布 式 交 换 机 版 本 必须 和 ESXi/vSphere 版 本 一 样 ， 更 早 版 本 的 ESXi 将 无 法 使 用 此 分 布 式 交 换 机 。 


在 创建 分 布 式 交换 机 时 的 一 个 步骤 是 选择 是 否 启 用 NIOC。 我 们 建议 保留 默认 信 一 一 局 用 。 稍 后 会 讨论 VSAN 环 境 中 NIOC 
的 数值 (应 该 如 何 设 置 ) 。 


第 2 步 : 创建 分 布 式 闯 口 组 
创建 分 布 式 闯 口 组 的 步骤 相对 简单 : 
1. 打 开 vSphere Web 客 户 靖 ， 导 航 到 vCenter Server 清 单 中 的 vSphere 分 布 式 交换 机 对 象 。 


2. 选 择 创建 新 的 分 布 式 端口 组 。 


3. 给 分 布 式 闹 口 组 提供 一 个 名 字 。 


4. 设 置 诺 口 组 的 属性 ， 例 如 VLAN 类 型 、VLAN ID、 绑 定 类 型 、 闯 口 分 配 ， 以 及 可 以 链接 到 痛 口 组 的 痛 口 数量 (如 图 3-4 所 


7K) o 


TAE ERARE mA (port allocation) RAURA AKA inm, ta AAE 
是 8， 默 认 的 端口 分 配 设置 是 弹性 (Elastic) 。 这 意味 着 当 所 有 8 个 端口 都 分 配 完 之 后 ， 新 的 一 组 8 个 端口 会 创建 出 来 。 将 分 配 类 
型 设置 成 弹性 的 端口 组 会 随 着 分 配 的 设备 数量 的 变化 目 动 增加 或 减少 新 口 数量 。 当 端口 绑 定 (Port binding) 设置 成 静态 绑 定 

(Static binding) 时 ,一 个 端口 会 在 连接 到 分 布 式 端口 组 的 时 候 被 分 派 给 VMkernel 尊 口 。 如 果 计 划 创 建 一 个 16 主 机 或 更 多 主 
机 的 VSAN 和 群集 ， 你 可 能 需要 考虑 将 端口 数量 配置 得 更 大 一 些 而 不 是 默认 的 8 个 。 这 意味 着 当 维 护 或 出 现 故 障 时 ， 主 机 能 有 足够 
的 痛 口 可 以 分 配 ， 直 到 它 可 以 重新 加 入 群集 为 止 。 这 也 意味 痢 交 换 机 无 须 承 担 额 外 的 开销 来 删除 和 重新 添加 闯 口 。 


在 创建 分 布 式 交换 机 和 分 布 式 闯 口 组 的 时 候 ， 有 很 多 其 他 选项 可 以 选择 ， 例 如 桨 口 绑 定 的 类 型 。 这 些 选 项 在 官方 的 VMware 
vsSphere 文 档 中 有 详细 的 摘 述 。 尽 管 我 们 在 此 稍微 多 讨论 了 一 些 天 于 闯 口 分 配 的 细节 ， 但 是 大 多 数 配 置 都 不 在 本 书 讨论 的 沁 围 乙 
内 ， 不 熟悉 这 些 选 项 的 读者 可 以 在 官方 文档 中 找到 解释 。 不 过 ， 对 于 VSAN 部 署 来 咒 ， 这 些 分 布 式 交 换 机 和 庙 口 组 的 配置 选项 即 
使 只 是 简单 地 保留 其 黑 认 什 ， 也 是 没 问题 的 。 


z. New Distributed Port Group 





v^ 1 Select name and location Confiqure settings 
Set general properties of the new port group. 


2 Configure settings 
3 Ready to complete Port binding: | Static binding | M | 
Port allocation: | Elastic | > | 


© Elastic port groups automatically increase or decrease the number of ports as needed. 


Number of ports: 8 E 


Network resource pool: (default) v 





VLAN 


VLAN type: 


Advanced 


C] Customize default policies configuration 








Back || Next Finish Cancel | 


E: 


图 3-4 ”分 布 式 端口 组 设置 
第 3 步 : 创建 VMkernel 端 口 


当 分 布 式 端 口 组 创建 好 之 后 ， 就 可 以 开始 在 ESXi 主 机 上 创建 VMkernel 端 口 了 。 给 ESXi 主 机 添加 网 络 的 第 一 步 是 选择 一 个 合 
适 的 连接 类 型 。 对 于 VSAN 网 络 流量 而 言 ， 连 接 类 型 是 VMkernel Network Adapter (如 图 3-5 所 示 ) 。 


日 mia-cg07-esx018.vmwcs.com - Add Networking 


1 Select connection type Select comection type 


Select a connection type to create. 
2 Select target device 


3 Connection settings (*) VMkernel Network Adapter 
The VMkernel TCP/IP stack handles traffic for ESXi services such as vSphere vMotion, iSCSI, 
NFS, FCoE, Fault Tolerance, Virtual SAN and host management 

( ) Physical Network Adapter 

4 Ready to complete A physical network adapter handles the network traffic to other hosts on the network 


(C) Virtual Machine Port Group for a Standard Switch 
A port group handies the virtual machine traffic on standard switch. 


3a Port properties 
3b IPv4 settings 


Finish Cancel | 





图 3-5 VMkerneli&4£ 25 7H 


TF—ÉÉÁABOÓESEELERSBm TB fh xvim 128A RA sUix 7 V MkernelbiZ&;&BeRE. BUIBISXAI JE EE USE T —' 1-23 5 xvm 128, 
所 以 我 们 只 要 选择 这 个 分 布 式 端口 组 即 可 (如 图 3-7 所 示 ) . 


分 布 式 冰 口 组 选 定 后 ， 融 该 为 这 个 VMkernel| 痛 口 选 择 合 适 的 连接 设置 了 。 在 连接 设置 的 第 一 部 分 ， 要 配置 的 是 痛 口 属性 ， 
在 这 里 要 选择 VMkernel 新 口 相 关联 的 服务 。 这 个 例子 中 ， 要 创建 一 个 用 于 VSAN 流 量 的 VMkernel 刀 口 ， 所 以 要 选择 局 用 的 服务 
是 Virtual SAN traffic， 如 图 3-8 所 示 。 默 认 情 况 下 ， 当 创建 一 个 VMkernel 适 配器 时 有 3 种 TCP/IP 栈 可 以 选择 。 不 过 ， 只 有 一 种 
TCP/YIP 栈 ， 也 束 是 名 字 叫 default 的 TCP/IP 栈 可 以 用 于 VSAN 网 络 。TCP/IP 栈 Provisioning 只 能 用 于 提供 通信 流量 ， 而 TCP/YIP 材 
vMotion 只 能 用 于 vMotion， 这 两 种 不 能 用 于 VSAN 网 络 流量 。 其 他 网 络 堆 栈 类 型 或 许可 以 在 VMware 官 方 的 文档 中 找到 ， 它 们 
超出 了 本 书 讨 论 的 范畴 ， 不 过 这 里 可 以 简单 提 一 下 : ESXi 主 机 上 可 以 配置 不 同类 型 的 网 络 堆栈 ， 它 们 具有 不 同 的 属性 (例如 每 个 
网 络 堆栈 各 目 关 联 的 默认 网 天 ) 。 图 3-6 显 示 了 不 同 的 TCP/IP 栈 选项 


日 esxi-hp-01.rainpole.com - Add Networking 





Port properties 


1 Select connection type 
Specify VMkernel port settings. 


2 Select target device 
3 Connection settings 
3a Port properties 
3b IPv4 settings 


VMkernel port settings 


Network label: 





IP settings: 


TCP/IP stack: 
Default 
Avallable services CormacTest 


Enable services: Provisioning 
vMotion 

[ ] Fault Tolerance logging 

[ ] Management traffic 

[ ] vSphere Replication traffic 

[ ] vSphere Replication NFC traffic 
[v] Virtual SAN traffic 


Cancel 





图 3-0 VMketnel 


现在 ， 没 有 专用 于 VSAN 流 量 的 TCP/IP 栈 ， 也 不 支持 创建 客户 自 定义 的 VSAN TCP/IP 栈 。 在 普通 的 VSAN 配 置 中 ， 这 不 需 
要 考虑 。 然 而 ， 在 第 8 章 讨论 延伸 群集 的 时 候 ， 我 们 将 再 次 深入 探讨 VSAN 网 络 ， 研 究 在 VSAN 延 伸 群 集中 的 ESXi 主 机 如 何 通过 
三 层 网 络 进 行 通信 。 


正确 的 服务 (Virtual SAN traffic) 选 好 后 ， 下 一 步 是 进行 VYMkernel 适 配器 的 IPv4 设 置 (如 图 3-9 所 示 ) 。 从 VSAN 6.2 起 
|Pv6 完 全 受 支持 。1IPv4 和 1Pv6 均 有 两 个 可 选项 : DHCP 或 静态 。 动 态 主机 配置 协议 (Dynamic Host Configuration 
Protocol, DHCP) 是 一 个 标准 的 网 络 协 议 ， 它 用 来 给 网 络 上 的 其 他 设备 提供 具体 的 网 络 配置 。 如 果 选 择 了 DHCP， 在 网 络 上 必 
须 存在 一 台 有 效 的 DHCP 服 务 器 来 给 ESXi 主 机 的 这 个 VMkernel 端 口 提供 有 效 的 IPv4/IPv6 人 信息。 这 个 例子 中 选择 使 用 IPv4 静 态 配 
置 ， 这 是 最 常见 的 情景 ， 所 以 必须 提供 一 个 有 效 的 IP 地 址 和 子 网 掩 码 ，。 


w^ 1 Select connection type Select target device 


Select a target device for the new connection. 
v 


3 Connection settings (*) Select an existing network 
3a Port properties DPortGroup 1-VSAN 


3b IPv4 settings 


©) Select an existing standard switch 


4 Ready to complete 


C) New standard switch 





图 3-7 VMkernel 目 标 设备 


wv 1 Select connection type Port properties 
Specify VMkernel port settings. 
v 2 Select target device 


3 Connection settings VMkerne! port settings 





3a Port properties 
Network label: IDPortGroup 1-VSAN(DSwitch) 
3b IPv4 settings 


4 Ready to complete IP settings: (m | 


TCP/IP stack: i*-10 


Avallable services 


Enable services: [ ] vMotion traffic 
[ ] Provisioning traffic 
[ ] Fautt Tolerance logging 
[ ] Management traffic 
[ ] vSphere Replication traffic 
[ ] vSphere Replication NFC traffic 
[v/ Virtual SAN traffic 





图 3-8 VMkernel3g v /£ pt 


日 mia-cg07-esx018.vmwcs.com - Add Networking ? 


w^ 1 Select connection type IPv4 settings 
Specify VMkernel IPv4 settings. 


w^ 2 Select target device 


3 Connection settings CO Obtain IPv4 settings automatically 


v^ 3a Port properties (2) Use static IPv4 settings 


3b IPv4 settings TN MM 


4 Ready to complete 
ET Subnet mask 


Default gateway for IPv4: 172.24.134.1 
DNS server addresses: 172.31.10.1 





Back || Next | Finish | Cancel l 
图 3-9 VMkernel IPv4 设 置 


在 VMkernel 端 口 的 细节 都 设置 完毕 之 后 ， 在 最 终 创建 VYMkernel 端 口 前 ， 可 以 再 重复 检查 一 次 所 有 的 具体 配置 ， 如 图 3-10 
所 示 。 


日 10.160.32.203 - Add Networking 





1 Select connection type Ready to complete 
Review your settings selections before finishing the wizard. 
2 Select target device 


3 Connection settings Distributed port group: DPortGroup 1-VSAN 
3a Port properties Distributed switch: DSwitch 
3b IPv4 settings TCP/IP stack: Default 
vMotion traffic: Disabled 
v Provisioning traffic: Disabled 
Fault Tolerance logging: Disabled 
Management traffic: Disabled 
vSphere Replication traffic: Disabled 
vSphere Replication NFC traffic: Disabled 
Virtual SAN traffic: Enabled 


IPv4 settings 
IPv4 address: 10.7.7.1 (static) 
Subnet mask: 255.255.255.0 





图 3-10 ”VMkernel 配 置 即将 完成 


这 个 VMkernel 尊 口 配置 必须 在 VSAN 和 群集 中 的 每 合 ESXi 主机 上 重复 进行 。 配 置 结束 上 时， 为 了 成 功 创建 VSAN 群 集 所 进行 的 
网 络 配 置 准备 工作 束 完 成 了 。 


3.5 ”可 能 友 生 的 网 络 配置 可 题 


如 果 VSAN VMkerne| 没 能 配置 正确 ， 在 VSAN 和 群集 对 象 的 Monitor (监控 ) 页 面 上 的 Virtual SAN 一 Health (运行 状况 ) 部 
分 会 显示 一 条 配置 警告 消息 。 点 击 (特定 测试 失败 的 ) warning， 关 于 群集 中 所 有 主机 网 络 状态 的 进一步 具体 信息 会 显示 出 来 
(如 图 3-11 所 示 ) 。 这 个 例子 中 显示 的 是 一 个 8 主机 和 群集 中 的 某 单 台 主 机 位 于 一 个 不 同 的 IP 子 网 ， 可 想 而 知 这 会 引起 网 络 连 接 问 


日 
jill, 


Getting Started Summary | Monitor | Manage Related Objects 


Issues | Performance | Profile Compliance | Tasks | Events | Resource Reservation | Utilization | Virtual SAN | 


4a Virtual SAN Health (Last checked: Today at 11:53 AM) 


v Cluster Pe Test Result Test Name 


Virtual Machine Q Failed - Network health 
Consumption 


Virtual SAN Backend 
v Virtual SAN 
Physical Disks 
Virtual Disks 
Resyncing Components 


Capacity 
Proactive Tests 


Q Failed 

© Failed 

€ Failed 

A Waring 
© Passed 
© Passed 
© Passed 
© Passed 
© Passed 
© Passed 


Basic (unicast) connectivity check (normal ping) 
MTU check (ping with large packet size) 

Virtual SAN cluster partition 

All hosts have matching subnets 

All hosts have a Virtual SAN vmknic configured 
All hosts have matching multicast settings 
Hosts disconnected from VC 

Hosts with connectivity issues 

Hosts with Virtual SAN disabled 

Multicast assessment based on other checks 





All hosts have matching subnets 

Checks if all the hosts in the Virtual SAN cluster are in the same IP subnet. 

Virtual SAN IP Subnet configurations 

IP Subnet(s) 
123.123.141.0/24 
10.160.32.0/19 
10.160.32.0/19 
10.160.32.0/19 
10.160.32.0/19 
10.160.32.0/19 
10.160.32.0/19 


4n «cn $n nin 


10.160.32.203 
J 10.160.44.211 
10.160.53.112 
10.160.58.255 
10.160.35.83 
10.160.63.118 
10.160.38.86 


4n «cn co 7n 





图 3-11 网 络 配 置 警 告 消息 


对 于 VSAN 6.1 及 更 早 版 本 ， 另 一 个 可 以 观察 到 VSAN 通 信 上 故障 的 地 方 是 在 Summary (摘要 ) 页 ， 如 图 3-12 所 示 。 如 果 主 机 
无 法 和 群集 中 的 其 他 主机 通信 ，Summary 页 会 显示 “Host cannot communicate with all other nodes in the VSAN 
enabled cluster" (主机 无 法 与 已 启用 VSAN 群 集中 的 所 有 其 他 节点 进行 通信 ) 。 此 时 ， 你 需要 回 到 VMkernel 端 口 属性 页 面 进 
行 检 查 ， 确 保 设置 是 正确 的 。 


另 一 个 常常 困扰 很 多 客户 的 问题 就 是 对 组 播 流 量 传输 的 依赖 。VSAN 的 一 个 必要 条 件 是 允许 组 播 流量 在 VSAN 群 集中 的 ESXi 
主机 之 间 的 VSAN 网 络 上 传输 。 不 过 ， 组 播 仅 用 于 相对 不 频繁 的 操作 ， 例 如 ，V3SAN 和 群集 中 主机 的 初次 友 现 ， 以 及 群集 中 主机 之 
间 持 续 的 “心跳 ” 检 柏 。 


那么 缺乏 组 播 支 持 是 怎样 表现 出 来 的 呢 ? 你 在 群集 上 启用 了 VSAN 后 会 看 见 一 条 显示 在 群集 层面 上 的 警告 消息 。 如 果 你 
VSAN 群 集 对 象 的 Monitor (监控 ) 标签 页 下 查看 Virtual SAN 菜 单 下 的 Health (运行 状况 ) 部 分 ， 会 显示 一 条 天 于 “Multicast 
Assessment" (基于 其 他 检查 的 组 播 评 估 ) 或 “All hosts have matching multicast settings" (所 有 主机 组 播 配 置 已 匹配 ) 
的 警告 消息 ， 即 使 此 时 你 可 以 ping/vmkping 通 所 有 主机 的 VSAN 接 口 。 另 一 个 表象 是 你 可 能 会 发 现形 成 了 多 个 单 主机 的 VSAN 
和 群集， 每 个 ESXi 主 机 处 在 自己 唯一 的 群集 分 区 中 。 


以 mia-cg07-esx011.vmwcs.com ^ Actions ~ 


Getting Started | summary | Monitor Manage Related Objects 


mia-cg07-esx011.vmwcs.com FREE: 18.88 GHz 
Model Cisco Systems Inc N20-B6625-1 
Processor Type: Inte(KR) Xeon(R) CPU E5620 @ 2.40GHz 


Logical Processors: 16 
NICs: 4 USED: 6.85 GB CAPACITY: 95.93 GB 


CAPACITY: 19.14 GHz 


FREE: 89.08 GB 


Virtual Machines; Ü STORAGE FREE: 8.12 TB 


USED: 5.73 GB CAPACITY: 8.12 TB 
State: Connected 


Uptime: 37 days 
ET 


Host cannot communicate with all other nodes in the VSAN enabled cluster 








图 3-12 主机 无 法 通信 
如 何 解决 这 个 问题 ?很 多 我 们 的 VSAN 客 户 在 VMware 社区 的 VSAN 论 坛 中 讨论 过 一 些 可 用 的 选择 ， 下 面 列 出 了 一 些 建议 。 


. 选择 1: 在 用 于 VSAN 流 量 的 VCAN 上 禁用 IGMP (Internet Group Management Protocol) IR (snooping) 。 这 会 允许 所 有 


组 播 流量 通过 ， 但 是 如 果 仅 有 的 流量 是 VSAN， 流 量 应 该 小 到 可 以 忽略 ， 所 以 应 该 可 以 安全 使 用 。 


- 选择 2: 配置 IGMP 帘 探查 询 器 (snoopingquetier) 。 如 果 存 在 其 他 组 播 流 量 ， 而 且 你 担心 禁用 IGMP 窥 探 会 引起 组 播 洪 
流 ， 那 么 这 是 推荐 的 选择 。 


遇 到 过 这 个 问题 的 客户 声称 这 两 种 方法 都 可 行 。 不 过 ， 我 们 建议 你 还 是 要 参考 交换 机 供应 商 的 文档 来 了 解 如 何 进 行 组 播 相 关 
的 配置 。 某 些 人 交换 机 把 组 播 转换 成 广播 ， 数 据 包 将 锌 上 友 往 所 有 疹 口 。VMware 建 议 客户 在 可 能 的 情况 下 应 该 避免 将 此 类 交换 机 用 
于 VSAN。 具 有 IGMP 堪 探 功 能 的 更 智能 的 交换 机 可 以 把 组 播 数据 包 只 友 送 到 那些 需要 的 端口 ， 这 类 交换 机 更 适用 于 VSAN 部 
署 。 原 因 是 非 智能 交换 机 只 是 简单 地 把 组 播 流量 转换 成 广播 流量 ， 这 可 能 会 导致 网 络 洪流 并 影响 连 在 同一 个 交换 机 上 的 非 VSAN 
主机 。 


最 后 需要 解释 的 是 如 何 判 断 哪 台 或 哪些 主机 处 于 隔离 于 群集 的 状态 。 最 方便 的 方法 是 在 VSAN 的 Manage (管理 ) 页 面 的 
Disk Managment (磁盘 管理 ) 中 查看 Disk Groups (磁盘 组 ) 视图 。 这 个 视图 包含 一 个 名 为 Network Partition Group (网 络 
分 区 组 ) 的 列 ， 其 中 会 显示 一 个 组 号 来 突出 显示 某 台 特定 的 主机 现在 位 于 哪个 分 区 组 内 。 如 果 和 群集 被 成 功 地 创建 并 且 所 有 主机 都 
能 相互 通信 ， 在 这 个 视图 中 的 所 有 主机 都 将 具有 相同 的 网 络 分 区 组 号 ， 如 图 3-13 所 示 。 注 意 ， 此 视图 还 显示 了 主机 是 否 健 康 ， 

是 否 已 连 入 VSAN 群 集 


[7 VSAN-Cluster ^ Actions ~ 


Getting Started Summary Monitor | Manage | Related Objects 











| Settings Scheduled Tasks | Alarm Definitions | Tags | Permissions | 





«4 Disk Groups Disk Groups Disks 


aui: s (o 
Disk Group State Virtual SAN H... Type Network Partit... Disk Format Version 
basada [À 10.160.44.211 Connected Healthy Group 1 
v Virtual SAN (i, 10.160.63.118 Connected Healthy Group 1 
General F 10.160.58.255 Connected Healthy Group 1 
Ẹ 10.160.32.203 Connected Healthy Group 1 
Fault Domains & Stretched A 10.160.53.112 Connected Healthy Group 1 
Cluster A 10.150.35.83 Connected Healthy Group 1 
Health and Performance (à 10.160.59.70 Connected Healthy Group 1 
» Configuration 区 10.160.38.86 Connected Healthy Group 1 


v Services 


vSphere DRS 


General 
Licensing 
VMware EVC 
VM/Host Groups 





图 3-13 网络 分 区 组 


3.6 网络 MO 控制 配置 示例 


如 前 所 述 ， 网 络 MO 控 制 (NIOC) 可 以 用 来 保证 VSAN 和 群集 的 通信 和 Il/MO 传 输 所 需 的 带宽 。 只 有 在 vSphere 分 布 式 交 换 机 
(VDS) 中 才能 配置 NIOC， 而 在 VMware 标准 交换 机 (VSS) 中 是 不 支持 的 。VDS 的 确 只 在 某 些 高 版 本 的 vSphere 中 才 提 供 ， 
不 过 VSAN 已 经 包含 了 VDS， 而 不 管 你 使 用 的 是 哪个 版 本 的 vSphere。 


如 果 你 正在 使 用 的 分 布 式 交换 机 版 本 早 于 vSphere 版 本 ， 为 了 使 用 VSAN， 我 们 建议 你 把 它 升级 到 最 新 版 本 ， 里 然 vSphere 
的 文档 中 没有 特别 指出 这 一 点 。 这 个 建议 只 是 为 了 小 心 起 见 ， 因 为 我 们 所 有 的 VSAN 测 试 都 是 基于 最 新 版 本 的 分 布 式 交 换 机 的 。 


EjvSphere 5.5 版 本 起 ，NI1OC 包 含 一 种 新 的 流量 类 型 ， 叫 做 “虚拟 SAN 流 量 ”， 并 对 VSAN 流 量 提供 服务 质量 (QoS). &E 
然 对 于 某 些 VSAN 群 集 环 境 来 说 ， 服 务 质 量 配置 可 能 不是 必需 的 ， 但 是 在 VSAN 流 量 正好 被 共享 的 同一 块 万 兆 网 卡 上 的 其 他 流量 
类 型 所 影响 的 时 候 ， 有 这 样 的 特性 束 很 棒 了 。vMotion 束 是 一 个 例子 。vMotion 流 量 天 生 的 特性 束 是 “ 爆 友 性 的 ”， 可 能 会 试图 
占用 一 个 网 卡 端 口上 的 所 有 可 用 市 冤 ， 这 样 束 会 影响 到 网 卡 上 共享 的 其 他 流量 类 型 ,包括 VSAN 流 量 。 在 这 种 情况 下 ,使 用 
NIOC 融 可 以 避免 这 种 目 帮 的 拒绝 服务 攻击 (DoS attack) 。 


设置 NIOC 相 当 简 单 ， 并 且 只 要 配置 完成 ， 它 整 能 为 所 有 主机 之 间 的 VSAN 流 量 保证 一 定 的 市 宽 。 当 VDS 生 成 时 ，NI1OC 默 认 
是 局 用 的 。 如 果 这 个 功能 在 初始 创建 分 布 式 交 换 机 的 时 候 被 禁用 了 ， 那 么 它 还 可 以 再 次 被 局 用 。 方 法 是 这 样 的 : 首先 ， 用 
vSphere Web 客 户 端 在 vCenter Server 清 单 中 选择 VDS， 然 后 导航 到 Manage (管理 ) 页 ， 接 着 选择 Resource Allocation ( 资 
源 分 配 ) 视图 ， 就 会 显示 出 Network I/O Control (网 络 |/O 控 制 ) 配置 选项 (如 图 3-14 所 示 ) 。 


Alarm Definitions Network Protocol Profiles | Ports | Resource Allocation | 
= Natani VO Control Eneas 
14 


0 Gbit/s 0 Gbit/s Version: 3 


Physical network adapters: — 


Total bandwidth capacity 0 Gbit/s my Ed 
nimum speed: 一 


Maximum reservation allowed 0 Gbit/s 
9 Configured reservation 0 Gbit/s 
Available bandwidth 0 Gbit/s 


^ (Q Filter - 
Traffic Type 

Fault Tolerance (FT) Traffic 
Management Traffic 

NFS Traffic 

Virtual Machine Traffic 

Virtual SAN Traffic 

iSCSI Traffic 

vMotion Traffic 

vSphere Data Protection Backup Traffic 
vSphere Replication (VR) Traffic 


Unlimited 
Unlimited 
Unlimited 
Unlimited 
Unlimited 
Unlimited 
Unlimited 
Unlimited 
Unlimited 


ggsgsgaggsgsgsg 





图 3-14 NIOC 资 源 分 配 


要 为 VSAN 流 量 改变 NIOC 的 资源 分 配 ， 只 需要 简单 地 编辑 Virtual SAN Traffic 网 络 资源 池 (network resource pool) 的 属 
性 即 可 。 图 3-15 显 示 了 有 哪些 可 以 更 改 的 配置 选项 。 
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Name: Virtual SAN Traffic 
Description: Virtual SAM Traffic Type 


Shares: | Normal | | 


Reservation: | 0 Iz] | Mbit/s | m 


Max. reservation: 0 Mbit/s 


Unlimited -|[Mbis |+] 
Max. limit: 1,000,000 Mbit/s 





图 3-15 NIOC 配 置 


默认 情况 下 ，Limit (限制 ) 被 设置 成 Unlimited (不 受 限 制 ) , Physical adapter shares (物理 适配器 份额 ) 值 设 置 为 
50, Reservation ( 预 留 ) 值 为 0。Unlimited 意 味 着 VSAN 网 络 流量 在 没有 拥堵 的 时 候 可 以 使 用 全 部 网 络 市 这 。 使 用 
reservation ( 预 留 ) 设置 可 以 配置 必须 用 于 此 特殊 通信 流量 的 最 小 市 完 ， 数 值 不 得 超过 可 用 市 之 的 75%。 我 们 建议 不 要 修改 默 
认 设 置 (来 配置 预 留 值 ) ， 而 是 使 用 shares (份额 ) 机制 来 进行 控制 。 如 果 拥 堵 发 生 ，Physical adapter shares 就 开始 友 挥 作 
用 。 这 个 份额 会 与 分 配给 其 他 流量 类 型 的 份额 进行 比较 来 决定 哪 种 流量 类 型 能 得 到 更 高 的 优先 级 。 


VMware 推 荐 在 VSAN 的 部 署 上 使 用 万 焰 以 太 网 基础 架构 。 在 此 类 部 署 中 ， 通 党 使 用 两 个 万 兆 以 太 网 端口 ， 分 别 连 接 到 两 从 


有 具有 万 兆 以 太 网 能 力 的 物理 交换 机 来 提高 可 用 性 。 因 此 不 同类 型 的 济 量 将 需要 共享 整个 网 络 市 宽 ， 此 时 NIOC 可 残 是 无 价 之 军 
f. 

我 们 不 推荐 给 VSAN 流 量 设 定 一 个 Limit (限制 ) 。 原 因 是 ， 这 个 Limit 是 一 个 “硬性 的 ”限制 设 定 。 损 句 话 说， 如 果 对 
VSAN 流 量 配置 了 2Gbps 的 Limit， 即 使 网 络 上 还 有 多 余 的 可 用 市 膏 ,流量 也 会 被 限制 在 2Gbps。 因 此 我 们 不 推荐 使 用 Limit 设 
定 。 我 们 建议 使 用 shares (份额 ) 来 根据 资源 使 用 和 需求 情况 对 各 种 流量 类 型 做 出 “ 虚 限 制 ”。 


3.7 ”设计 考量 : 分 布 式 交换 机 和 和 网 络 |/O 探 制 


为 了 提供 服务 质量 (QoS) 和 性 能 的 可 预测 性 ，VSAN 和 NIOC 应 该 携手 共 进 。 在 讨论 配置 选项 之 前 ， 下 列 网 络 类 型 应 该 列 
入 考虑 泄 围 内 : 


. 管理 网 络 
: vMotion 网 络 
- Virtual SAN 网 络 
- 虚拟 机 网 络 
这 个 设计 考量 假设 为 了 可 用 性 已 经 准备 好 了 万 兆 的 见 余 网 络 连 接 和 一 对 元 余 的 交换 机 。 基 于 使 用 的 网 络 交 换 机 类 型 的 不 同 ， 
我 们 将 描述 两 个 场景 : 
1. 不 具备 链 路 聚合 能 力 的 元 余 万 兆 以 大 网 交换 机 配置 。 
2. 具 备 链 路 聚合 能 力 的 见 余 万 兆 以 太 网 交换 机 配置 。 


全 注意 “ 链 路 肥 合 (IEEE 802.3ad) 使 得 用 户 可 以 在 网 络 设备 之 间 用 多 条 链 路 来 进行 连接 。 它 将 多 条 物理 连接 捆绑 成 一 条 


逻辑 连接 ， 并 提供 某 种 程度 的 宛 余 性 和 带宽 提升 。 
对 于 这 两 种 配置 ， 都 建议 创建 以 下 端口 组 和 VMkernel 接 口 : 
` 1 个 管理 网 络 VMkernel 接 口 
- 14*vMotion VMkernel 接 口 (所 有 接口 都 在 同一 个 子 网 内 ) 
1 个 VSAN VMkernel 接 口 
. 1 个 虚拟 机 端口 组 
为 了 简化 配置 ， 应 该 创建 单个 VSAN 和 vMotion 的 VMkernel 接 口 。 


为 了 保证 不 同类 型 的 流量 分 别 在 不 同 的 物理 端口 上 传输 ， 我 们 将 利用 标准 分 布 式 交换 机 的 能 力 。 接 下 去 我 们 还 会 告诉 你 如 何 
使 用 份额 (share) KEA, "BARRIS E" o 


场景 1: 不 具备 “ 链 路 聚合 ”能 力 的 元 余 万 兆 以 太 网 交换 机 


在 这 个 配置 中 有 两 个 独立 的 万 兆 以 太 网 上 行 链 路 。 出 于 简单 性 的 理由 ， 建 议 把 沅 量 分 隅 并 将 一 条 万 兆 以 太 网 上 行 链 路 专用 于 


VSAN。 下 面 是 每 种 流量 类 型 推荐 的 最 小 囊 宽 : 
管理 网 络 : 1GbE 
: VMotion VMkernel 接 口 : 5GbE 
-虚拟 机 网 络 : 2GbE 
- VSAN VMkernel 接 口 : 10GbE 


不 同 的 流量 类 型 将 共享 同一 条 上 行 链 路 。 管 理 网 络 、 虚 拟 机 网 络 和 vMotion 网 络 流量 配置 成 共享 上 行 链 路 1， 而 VSAN 流 量 
配置 成 使 用 上 行 链 路 2。 通 过 这 种 网 络 配 置 方式 ， 在 VSAN 群 集 处 于 正常 或 标准 的 运行 状态 下 时 ， 所 有 不 同类 型 的 流量 都 会 获得 
AESZB TS Ba. 


为 了 保证 没有 一 种 流量 类 型 会 在 竞争 友 生 的 时 候 影 响 其 他 流量 类 型 ， 需 要 配置 NIOC 并 设置 份额 管理 机 制 |。 


在 这 个 场景 的 练习 中 ， 当 定义 流量 类 型 的 网 络 份额 (shares) 时 ， 假 设 只 有 一 个 物理 端口 可 用 ， 且 所 有 流量 类 型 共享 同 这 一 
个 物理 闯 口 。 


这 个 场景 还 使 用 了 最 坏 情 况 法 来 进行 考量 一 一 即 在 故障 友 生 时 ， 也 能 保证 性 能 。 通 过 这 种 方法 ， 我 们 可 以 确保 VSAN 始 终 拥 
有 50% 的 市 完 ， 同 时 还 给 其 余 流量 类 型 提供 足够 的 市 范 ， 以 避免 自己 引 友 的 可 能 的 拒绝 服务 攻击 。 


表 3-1 根据 不 同 流量 类 型 推荐 的 份额 和 限制 配置 值 (场景 1) 


流量 类 型 份额 限制 | 
OEE 20 [| / 
vMotion VMkernel 接口 
虚拟 机 端口 组 | 


Virtual SAN VMkernel # O 100 / 


表 3-1 列 出 了 不 同 流量 类 型 推荐 配置 的 份额 值 。 
在 为 不 同类 型 的 流量 选择 上 行 链 路 的 时 候 ， 应 该 把 不 同类 型 的 流量 相互 隔离 ， 以 提供 可 预见 性 ， 同 时 避免 “ 嗜 杂 的 邻居 ”的 
干扰 。 建 议 进行 以 下 配置 : 
` 管理 网 络 VMkernel 接 口 = 使 用 明确 故障 切换 顺序 = 上 行 链 路 1 活动 /上 行 链 路 2 备用 
VMotion VMkernel 接 口 = 使 用 明确 故障 切换 顺序 = 上 行 链 路 1 活动 /上 行 链 路 2 备用 
- 虚拟 机 端口 组 = 使 用 明确 故障 切换 顺序 = 上 行 链 路 1 活动 /上 行 链 路 2 备用 
Vittual SAN VMkernel 接 口 = 使 用 明确 故障 切换 顺 友 = 上 行 链 路 2 活动 /上 行 链 路 1 备用 


为 了 拥有 可 预见 性 ， 建 议 在 Teaming and failover 部 分 选择 Use explicit failover order (使 用 明确 故障 切换 顺序 ) 选项 
( 见 图 3-16) 。 这 个 选项 一 一 明确 故障 切换 顺序 一 一 始终 使 用 活动 适配器 列表 中 排 在 最 前 面 的 那 条 上 行 链 路 来 传递 故障 切换 检 





测 条 件 。 








Properties Load balancing: Use explicit failover order Y 
Security Network fallure detection: 
Traffic shaping Notify switches: Yes m 
Fallback: Yes : 
Fallover order 
会 & All | Properties CDP LLDP 
Active adapters Adapter intel Corporation 82571EB Gigabit Ethemet a| 
vmnic3 Controller (Copper) | 
Standby adapters Name wnio® 
mnic6 Location PCI 11:00.0 
— Driver e1000e 
I Status 
Status Connected 
Configured speed, Duplex Auto negotiate 
Actual speed, Duplex 1000 Mb, Full Duplex 
Networks No networks 
nirontDath Un i" 


Select active and standby adapters. During a failover, standby adapters activate in the order specified above. 


[ok [owe ] 





图 3-16 ”使 用 明确 故障 切换 顺序 


将 流量 分 隔 开 可 以 优化 存储 性 能 ， 同 时 也 能 给 vMotion 和 虚拟 机 流量 提供 足够 的 市 宽 ( 见 图 3-17) 。 尽 管 使 用 “基于 负载 
的 绑 定 ” (LBT，Load Based Teaming) 机 制 也 能 实现 ， 但 是 请 注意 ，LBT 负 载 均衡 周期 是 30 秒 ， 这 在 共享 的 上 行 链 路 出 
现 “ 突 友 ” 流 量 的 时 候 可 能 会 引起 短 时 间 的 拥堵 。 此 外 请 注意 ， 在 进行 网 络 故障 排 错 的 时 候 ， 它 可 能 会 在 跟踪 物理 网 卡 端口 和 
VMkernel 接 口 之 间 的 关系 方面 造成 一 些 困 难 。 因 此 ， 这 个 方法 也 在 网 络 配置 上 提供 了 一 种 简洁 性 。 








上 行 链 路 1 上 行 链 路 2 


^. 
^. 
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| 管理 | 虚拟 机 | vMotion | Virtual SAN | 
| | | | | 
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图 3-17 分 布 式 交换 机 、 故 障 切 换 顺 序 和 NIOC 配 置 
场景 2: 具备 “ 链 路 聚合 ”能 力 的 见 余 的 万 兆 以 太 网 交换 机 


在 这 种 场景 下 ， 两 条 万 兆 以 大 网 上 行 链 路 配置 成 一 种 捆绑 的 方式 ( 常 称 为 EtherChannel| 或 链 路 聚合 ) 。 因 为 物理 交换 机 和 具 
备 这 样 的 功能 ， 所 以 虚拟 层面 的 配置 便 极其 简单 。 我 们 仍然 以 前 面 推 荐 的 最 低 带 宽 作 为 设计 的 考量 因素 : 


管理 网 络 : 1GbE 

- VMotion VMkernelfzL1: 5GbE 

-虚拟 机 痛 口 组 : 2GbE 

- VSAN VMkernel 接 口 : 10GbE 

当 物 理 上 行 链 路 捆绑 〈 链 路 聚合 ) 之 后 ， 要 求 分 布 式 交 换 机 的 负载 均衡 机 制 配置 成 下 面 两 种 选择 之 一 : 
- IP 哈 希 

: LACP 一 一 链 路 聚合 控制 协议 (Link Aggregation Control Protocol) 


|P 哈 希 是 一 个 负载 均衡 配置 的 可 选项 ， 是 配置 在 那些 连接 到 多 个 上 行 链 路 的 VMkernel 接 口上 的 。 上 行 链 路 的 选择 是 基于 每 
个 数据 包 源 和 目的 IP 地 址 的 哈 希 做 出 的 。 对 于 非 1P 数 据 包 ， 不 管 数 据 包 内 是 什么 内 容 ， 和 IP 地 址 位 置 相同 的 那些 数值 会 用 来 计算 
哈 希 。 


vSphere 5.5 及 更 高 版 本 的 分 布 式 交换 机 支持 LACP。 这 个 特性 使 你 可 以 用 动态 链 路 聚合 的 方法 把 ESXi 主 机 和 物理 交换 机 连接 
起 来 。 链 路 聚合 组 (Link Aggregation Group, LAG) 是 在 分 布 式 交 换 机 上 创建 出 来 的 ， 它 们 把 ESXi 主 机 上 的 物理 网 卡 的 带宽 
聚合 起 来 ， 并 依次 连接 到 LACP 端 口 通道 (Port Channel) 。 


LACP 支 持 是 从 vSphere 分 布 式 交 换 机 版 本 5.1 开 始 引 入 的 ， 到 版 本 5.5 功 能 得 到 了 增强 。 如 果 你 正在 使 用 的 版 本 较 早 ， 则 应 
该 宇 少 升级 到 版 本 5.5。 


要 获得 IP 哈 希 和 LACP 支 持 的 更 多 细节 ， 可 以 参考 官方 的 vSphere 联 网 指南 。 
根据 所 使 用 的 不 同 物理 交换 机 的 类 型 ， 建 议 将 所 有 的 端口 组 和 VMkernel 接 口 配置 成 LACP 或 IP 哈 希 两 种 配置 之 一 : 
管理 网 络 VMkernel 接 口 =LACP/IP 哈 希 
: vMotion VMketnel 接 口 =LACP/IP 哈 布 
: 虚拟 机 端口 组 =LACP/IP 哈 项 
: VSAN VMkerneli£ v ZLACP/IP»&-7i 


因为 不 同 的 流量 类 型 会 共享 同一 条 上 行 链 路 ， 所 以 你 也 会 希望 能 确保 在 拥堵 的 情况 下 ， 不 会 友 生 某 一 种 类 型 的 流量 排挤 其 他 
类 型 流量 的 情况 。 为 了 这 个 目的 ,我 们 将 再 次 使 用 NIOC 份 额 机 制 。 





在 和 前 面相 同 的 假设 条 件 下 一 一 只 有 一 个 可 用 物理 并 口 并 且 所 有 流量 类 型 都 共享 这 同一 个 物理 病 口 ， 我 们 再 次 用 最 坏 情况 
法 来 考虑 。 这 个 方法 确保 了 即使 友 生 故障 也 能 保证 性 能 。 通 过 这 种 方法 ， 我 们 可 以 确保 VSAN 始 终 能 获得 20% 的 市 宽 并 同时 能 给 
其 他 类 型 的 流量 留 出 足够 的 市 完 ， 以 避免 目 己 引 友 的 可 能 的 拒绝 服务 攻击 。 


当 两 条 上 行 链 路 都 可 用 时 ，VSAN 得 到 的 带宽 相当 于 10GbE。 当 只 有 一 条 上 行 链 路 可 用 时 (由 于 网 卡 故障 或 者 维护 的 原 
因 ) ， 可 用 市 金 减 半 ， 相 当 于 ?GbE 市 贸 。 


表 3-2 列 出 了 不 同 流量 类 型 推荐 配置 的 份额 值 。 


表 3-2 根据 不 同 流量 类 型 推荐 的 份额 和 限制 配置 值 (场景 2) 


管理 网 络 20 / 
vMotion VMkernel 接口 / 
ke TE Lm H 2H 
VSAN VMkernel 接口 100 / 


图 3-18 摘 述 了 这 种 配置 的 场景 。 
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图 3-18 ”分 布 式 交换 机 的 链 路 聚合 配置 


这 里 讨论 的 两 种 场景 都 应 该 可 以 给 你 的 VSAN 群 集 提 供 一 个 优化 的 网 络 配 置 。 


38 创建 VSAN 和 群集 


VSAN 群 集 的 创建 在 很 多 方面 都 和 vSphere DRS 或 HA 群集 的 创建 完全 一 样 。 群 集 对 象 是 在 vCenter server 清 单 中 创建 的 ， 
你 可 以 选择 先 启用 VSAN 群 集 的 功能 ， 然 后 再 添加 主机 到 这 个 群集 ; 或 者 也 可 以 先 添加 主机 到 群集 ， 之 后 再 在 群集 上 启用 
VSAN。 在 一 个 群集 上 启用 VSAN 的 结果 就 是 在 这 个 VSAN 群 集中 的 所 有 ESXi 主 机 都 可 以 访问 一 个 共享 的 分 布 式 的 VSAN 数 据 存 
储 。 在 本 书写 作 之 时 ， 一 个 VSAN 和 群集 只 能 创建 一 个 VSAN 数 据 存储 。 因 此 ， 所 有 的 本 地 和 存储 都 将 被 这 个 VSAN 数 据 存储 享用 .。 


VSAN 数 据 存 储 是 由 这 个 群集 中 每 一 台 ESXi 主 机 的 本 地 存储 构成 的 。VSAN 数 据 存储 的 大 小 完全 取决 于 在 VSAN 群 集中 的 主 


机 数量 以 及 群集 中 每 全 ESXi 主 机 所 拥有 的 磁盘 或 用 作 容 量 设备 的 内 存 设备 的 数量 。 


在 最 早 版 本 中 ， 当 局 用 VSAN 功 能 的 时 候 ， 会 显示 一 个 选项 让 管理 员 来 选择 需要 手动 的 还 是 自动 的 群集 。 自 6.2 版 起 ， 在 
VSAN 的 最 初 配置 过 程 中 ， 会 显示 额外 的 选项 ， 如 图 3-19 所 示 。 


(jJ VSAN-CIuster - Configure Virtual SAN 


1 Select VSAN capabilitios vun OE OR 
Select how you want your Virtual SAN cluster to behave. 
2 Network validation 


3 Claim disks Disk Claiming 





pn Add disks to storage: | Manual | > 





Requires manual claiming of any new disks on the included hosts to the shared storage. 
Deduplication and Compression 


[v/] Enable 


Deduplication and compression will improve the total cost of ownership by reducing the data stored on your physical 
disks. Deduplication and compression only works for all-flash disk groups. Creating hybrid disk groups is not allowed 
when Deduplication and compression is turned on. 


Fault Domains and Stretched Cluster 
(©) Do not configure 


C) 2 host Virtual SAN cluster 
Two hosts at remote office * witness host in the HQ office to enable failures to tolerate. 

C) Stretched cluster 
Two active sites (evenly split) that are connected via a high bandwidth/low latency link, as well as a third site hosting 
a Virtual SAN Witness host which is connected to both data sites. 

( Configure fault domains 


You can group Virtual SAN hosts that could potentially fail together by creating a fault domain and assigning one or 
more hosts to it. Failure of all hosts within a single fault domain is treated as one failure. If fault domains are specified, 
Virtual SAN will never put more than one replica of the same object in the same fault domain. 





. Back | Finish |[ Canoe | 


图 3-19 ”新 版 VSAN 配 置 截图 


版 本 6.2 中 磁盘 声明 仍然 具有 手动 和 自动 2 种 方式 。 不 过 ， 如 果 你 局 用 了 “Deduplication and Compression” (去 重 和 压 
缩 ) ， 这 个 选项 总 会 是 “Manual” (手动 ) 。 磁 盘 声 明 的 这 个 选项 是 捐 vSphere 管 理 员 是 希望 VSAN 自 己 友 现 主 机 上 所 有 本 地 
磁盘 并 自动 将 它们 添加 到 VSAN 数 据 存 储 ， 还 是 喜欢 自己 手动 选择 磁盘 加 入 群集 。 注 意 ， 在 给 一 个 现 有 的 群集 配置 VSAN 时 ， 启 
用 VSAN 之 前 需要 先 禁 用 vSphere HA。 在 探讨 VSAN 所 有 不 同 结构 和 配置 之 前 ， 让 我 们 仿 开 话题 先 看 一 看 引入 VSAN 之 前 
vSphere HA 要 做 哪些 变更 ， 并 讨论 哪些 是 用 于 VSAN 的 推荐 选项 。 


3.9 vSphere HA 


VSAN 和 群集 完全 支持 vSphere HA， 以 为 群集 中 部 署 的 虚拟 机 提供 额外 的 可 用 性 。 然 而 ， 对 于 vSphere HA 我 们 做 出 了 很 多 显 
著 的 变化 来 确保 和 VSAN 之 间 的 民 好 的 互 操作 性 。 理 解 这 些 变化 将 如 何 影响 vSphere HA 的 配置 是 非常 重要 的 。 


3.9.1 vSphere HA 通信 了 网络 


在 非 VSAN 部 署 中 ，vSphere HA 代理 的 通信 是 通过 管理 网 络 进 行 的 ; 在 VSAN 环 境 中 ，vSphere HA 代理 的 通信 是 通过 
VSAN 网 络 进行 的 。 背 后 的 原因 是 我 们 希望 当 网 络 故 障 发 生 时 ，vSphere HA 主机 和 VSAN 主 机 是 位 于 同一 分 区 (partition) 中 
的 ， 这 就 避免 了 故障 时 因 vSphere HA 和 VSAN 判 断 的 分 区 不 同 而 造成 拥有 的 存储 组 件 和 对 象 集 不 同 所 造成 的 可 能 的 冲突 。 


在 VSAN 环 境 下 的 vsphere HA 在 默认 情况 下 仍然 将 管理 网 络 的 黑 认 网 天 用 作 隔 离 检测 (isolation detection) 。 我 们 估计 
大 多 数 VSAN 环 境 的 管理 网 络 和 VSAN 了 网络 很 可 能 是 使 用 同一 个 物理 网 络 基础 架构 的 (尤其 是 在 万 兆 网 络 情况 下 ) 。 但 是 ， 如 果 
VSAN 网 络 和 管理 网 络 是 位 于 不 同 的 物理 网 络 基础 以 构 ， 建 议 将 黑 认 的 vsphere HA 隔离 检测 地 址 从 管理 网 络 变 更 为 VSAN 风 I 
络 。 如 前 所 述 ， 默 认 情 况 下 隔离 地 址 是 管理 网 络 的 默认 网 关 。VMware 建 议 在 VSAN 上 的 vSphere HA 使 用 VSAN 网 络 上 的 某 个 IP 
地 址 作为 隔离 地 址 。 要 使 用 VSAN 网 络 上 的 某 个 1P 地 址 而 不 是 管理 网 络 的 默认 网 关 作 为 隅 离 检 测 地 址 ， 下 列 的 vSphere HA 高 级 


设置 中 的 配置 需要 进行 变更 
* das.useDefaultIsolationAddress- false 
- das.isolationAddtess0=<VSAN 网 络 上 的 某 个 了 地址 > 
不 过 ， 如 果 VSAN 网 络 里 面 没有 合适 的 隔离 地 址 ， 那 么 也 可 以 如 默认 设 定 那样 保留 管理 网 络 中 的 隔离 地 址 。 


另 一 个 显著 的 区 别 和 网 络 重 配置 有 关 。vSphere HA 不 会 自动 探测 到 在 VSAN 层 面 惑 VSAN 网 络 执行 的 变化 ， 因 此 ， 为 了 探 
测 到 这 些 变 化 ，vSphere 管 理 员 必 须 手 动 触发 vSphere HA 群集 的 重 配置 。 


39.2 vSphere HA 心跳 数据 存储 


VSAN 上 的 vSphere HA 的 男 一 个 显著 不 同 是 VSAN 数 据 存储 不 能 用 作 数 据 存 储 心 跳 (datastore heartbeat) 。 当 在 传统 的 
SAN 或 者 NAS 数 据 存 储 上 的 vSphere HA 群集 友 生 了 分 区 故障 事件 时 ， 心 跳 对 于 决定 虚拟 机 的 归属 扮演 着 非常 重要 的 角色 。 这 个 
功能 对 于 部 署 在 传统 共享 存储 环境 (NAS/SAN) 下 的 vsphere HA 是 非常 有 帮助 的 ， 因 为 它 允 许 分 区 在 同一 层面 上 进行 协调 。 
vSphere HA 不 将 VSAN 数 据 存 储 用 于 心跳 也 不 允许 用 户 把 它 指定 为 一 个 心跳 数据 存储 ，VSAN 使 用 网 络 群 集 服务 来 取而代之 ， 
世人 允许 非常 快速 的 故障 检测 。 主 要 的 原因 是 VSAN 通 常 和 vSphere HA 一 样 使 用 同一 个 网 络 接口 并 在 切换 时 和 vSphere HA 同步 ， 
因此 数据 存储 心跳 和 网 络 心跳 是 完全 一 样 的 。 


注意 : 参与 到 VSAN 和 群集 的 ESXi 主 机 如 果 同 时 也 接 入 到 共享 存储 ， 不 省 是 VMFS 还 是 NFS， 这 些 传统 的 数据 存储 会 被 用 于 
vSphere HA 心跳 。 


39.3 vSphere HA 接 入 控制 


这 是 讨论 vSphere HA 和 VSAN 互 操作 性 时 另 一 个 需要 考虑 的 因素 。 在 配置 vSphere HA 时 另外 一 个 需要 做 出 的 决定 残 是 接 入 
控制 (Admission Control) 。 接 入 控制 保证 了 vsphere HA 可 以 预 留 出 部 分 资源 ， 这 样 在 故障 友 生 时 还 具有 足够 的 资源 来 重新 
部 署 并 重 局 虚拟 机 ，。 


提起 故障 恢复 ， 请 注意 ，VSAN 不 是 接 入 控制 感知 型 的 (admission control-aware) ， 无 法 做 到 预先 留 出 一 部 分 空闲 资源 


来 保证 过 量 分 配 (overcommitment) 不 会 友 生 。 


如 果 友 生 了 一 个 故障 ，VSAN 会 试图 使 用 群集 中 剩余 证 点 的 所 有 剩余 的 空间 ， 使 得 虚拟 机 可 以 保持 在 合 规 状态 。 对 于 开局 了 
vSphere HA 的 VSAN 来 说 ， 谨 愤 而 细致 的 规划 是 非常 必要 的 ， 因 为 在 资源 过 度 分 配 时 ，VSAN 和 群集 中 的 多 个 故障 会 导致 所 有 可 
用 空间 都 馈 占 满 。 


在 规划 和 设计 VSAN 环 境 时 ， 建 议 将 “重建 容量 ” (Rebuild Capacity) 作为 考虑 因素 之 一 。 你 将 会 在 第 9 章 学 习 如 何 实现 
这 一 点 。 出 于 简单 性 的 考量 ， 建 议 将 VSAN (手动 ) 的 接 入 控制 和 所 选 的 vsphere HA 的 接 入 控制 配置 成 一 样 的 设置 。 请 特别 注 
意 ， 在 Web 客 户 端 的 健康 检查 页 面 的 确 会 显示 群集 的 当前 状态 ， 还 会 显示 一 整合 主机 故障 之 后 的 状态 。 


3.9.4 vSphere HABES 

当 一 个 局 用 了 vsphere HA 的 VSAN 群 集 上 发 生 主机 隅 离 事 件 时 ，VvSphere HA 会 执行 已 配置 过 的 隔离 响应 措施 。 融 vSphere 
HA， 你 可 以 选择 以 下 三 种 不 同类 型 的 隔离 响应 : 

. Leave power on. (保持 打开 电源 ) 

: Power off, then fail over (关闭 电源 ， 然 后 故障 切换 ) 

: Shut down, then fail over (关机 ， 然 后 故障 切换 ) 


当主 机 隔离 事件 友 生 时 ， 推 荐 的 做 法 是 让 vSphere HA 目 动 天 闭 运行 在 该 主机 上 的 虚拟 机 电源 (Power Off) . iE, 
隔离 响应 应 该 选择 “Power off, then failover” (关闭 电源 ， 然 后 故障 切换 ) ， 而 不 是 默认 选项 Leave power on (保持 打开 
电源 ) 。 


注意 ，“Power off, then failove" (关闭 电源 ， 然 后 故障 切换 ) 类 似 于 对 物理 主机 直接 拔 掉 电源 线 的 操作 ， 虚 拟 机 进程 
会 被 直接 打 断 一 一 这 不 是 一 次 干净 的 关机 。 然 而 ， 在 出 现 隔 离 事 件 的 情况 下 ， 这 种 操作 使 得 虚拟 机 不 可 能 继续 写 入 隔离 主机 上 
的 磁盘 中 ， 因 此 关闭 电源 的 做 法 是 我 们 推荐 的 选择 。 此 外 ， 如 果 ESXi 主 机 被 分 区 了 ， 虚 拟 机 也 不 可 能 访问 到 存储 对 象 的 仲裁 组 
件 。 


3.9.5 vSphere HA 组 件 保护 


在 传统 环境 中 ， 高 可 用 (HA) 是 可 以 对 APD (全 路 径 异 常 ，all path down) 和 PDL (永久 设备 丢失 ，permanent device 
loss) 的 情况 来 配置 一 种 响应 动作 的 。 这 是 vSphere 6.0 起 引入 的 新 功能 之 一 ， 叫 做 虚拟 机 组 件 保 护 (VM component 
protection) 。 在 当前 版 本 中 ， 这 个 功能 不 受 VSAN 文 持 ， 所 以 对 于 APD 以 及 PDL 的 响应， 是 不 需要 对 一 个 VSAN 和 群集 的 
vSphere HA 进行 配置 的 。 


现在 我 们 已 经 知道 vSphere HA 有 了 哪些 变化 ， 接 下 来 我 们 一 起 看 看 VSAN 的 一 些 核心 结构 。 


3.10 ”磁盘 组 的 角色 


VSAN 使 用 磁盘 组 这 个 概念 ， 它 是 一 个 灰 盘 和 闪存 设备 的 容器 。 部 署 在 某 个 磁盘 组 的 特定 (存储) 设备 上 的 虚拟 机 存储 只 能 
利用 同一 个 磁盘 组 中 的 内 存 设备 的 缓存 能 力 。 磁 盘 组 可 以 被 视 为 一 个 用 闪存 来 提供 性 能 并 用 磁盘 或 内 存 来 提供 容量 的 存储 设备 的 
集合 。 对 于 磁盘 组 的 配置 有 很 多 需要 注意 的 地 方 ， 接 下 去 我 们 将 细 细 道 来 。 后 文中 我 们 提 到 VSAN 磁 盘 组 时 所 襄 的 缓存 设备 ， 指 
的 是 SSD、PCle 内 存 设备 和 NVMe 闪 存 设备 ; 提 到 容量 设备 则 指 的 是 磁盘 (SATA、SAS 或 NL-SAS) 、SSD、PCle 闪 存 设备 和 
NVMe NFI E. 


3.10.1 磁盘 组 最 大 数量 


在 VSAN 6.2 版 中 ， 每 人 台 主 机 最 多 可 以 有 5 个 磁盘 组 ， 为 了 持久 存储 虚拟 机 ， 每 个 磁盘 组 包含 至 少 一 个 缓存 设备 和 一 个 容量 设 
备 。VSAN 同 时 支持 混合 配置 和 全 闪存 配置 ， 但 是 写作 本 书 时 ， 单 个 VSAN 和 群集 不 能 同时 配置 混合 配置 和 全 闪存 配置 。 


每 个 磁盘 组 最 多 可 以 包谷 1 个 缓存 设备 和 7 个 容量 设备 。 这 意味 着 VSAN 数 据 存 储 的 最 大 容量 是 7 个 容量 设备 乘 以 5 个 磁盘 组 乘 
以 群集 中 的 ESXI 主 机 数 再 乘 以 每 个 容量 设备 的 容量 。 看 见 没 ， 这 种 方法 具有 相当 强 的 可 扩展 性 ， 可 以 打造 一 个 规模 非常 大 的 分 布 
式 数据 存储 。 


3.10.2 ”为 什么 要 在 VSAN 中 配置 多 个 磁盘 组 


磁盘 组 使 得 vSphere 管 理 员 可 以 定义 故障 域 ， 在 全 闪存 配置 的 情况 下 还 能 定义 去 重 /压缩 域 。 第 5 草 将 介绍 去 重 和 压缩 的 工作 
原理 。 现 在 ， 只 需要 知道 它们 是 基于 每 个 磁盘 组 的 即 可 ， 因 为 这 个 会 影响 主机 以 及 主机 中 的 磁盘 组 的 设计 。 


设计 一 个 磁盘 组 有 很 多 种 不 同 的 方法 ， 其 中 最 重要 的 因素 就 是 VSAN 群 集 是 全 闪存 的 还 是 混合 配置 的 。 不 过 ， 故 障 域 的 概念 
对 这 两 者 都 适用 。 让 我 们 下 和 来 看 看 这 一 点 。 


对 于 多 个 由 一 个 缓存 设备 和 几 个 存储 设备 组 成 的 磁盘 组 来 说 ， 如 果 其 中 一 个 磁盘 组 的 缓存 设备 出 现 故 障 ， 故 障 的 范围 仪 限于 
那个 特定 磁盘 组 中 的 容量 设备 。 如 果 是 一 个 包含 了 很 多 个 容量 设备 的 非常 大 的 磁盘 组 ， 一 个 缓存 设备 的 故障 束 会 影响 很 多 台 虚 拟 
机 ， 因 为 这 会 影响 整个 太 盘 组 。 因 此 在 设计 磁盘 组 配置 的 时 候 ， 故 障 域 是 非常 重要 的 考量 因素 。 


图 3-20 显 示 了 2 人 台 VSAN 主 机 ， 第 一 侣 包含 2 个 磁盘 组 ， 每 个 磁盘 组 都 具有 一 个 缓存 设备 和 3 个 容量 设备 。 第 2 台 VSAN 主 机 有 
一 个 磁盘 组 ， 其 中 包含 一 个 缓存 设备 和 6 个 容量 设备 。 对 于 第 一 台 主 机 来 说 ， 当 缓存 设备 出 现 故 障 的 时 候 ， 不 会 影响 主机 上 的 另 
一 个 磁盘 组 ， 这 意味 着 ?50% 的 容量 和 性 能 仍然 是 可 用 的 。 而 第 2 侣 主机 受到 的 影响 则 会 大 得 多 ， 当 缓存 设备 出 现 故 障 时 所 有 6 个 
容量 设备 都 不 可 用 。 这 就 是 所 谓 的 磁盘 组 可 以 用 于 定义 故障 域 的 意思 。 
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图 3-20 ”磁盘 组 定义 故障 域 


大 多 数 情 况 下 出 于 故障 域 或 是 性 能 方面 因素 的 考虑 ， 结 果 都 会 是 采用 多 个 磁盘 组 而 不 是 单个 磁盘 组 。 不 过 ， 这 市 来 一 个 有 起 
的 话题 。 在 全 闪存 配置 下 可 以 在 群集 层面 上 局 用 提高 空间 利用 效率 的 功能 (去 重 和 压缩 ) 。 尽 管 去 重 和 压缩 功能 的 局 用 是 基于 群 
集 层面 的 ， 但 其 作用 的 范围 辑 是 基于 磁盘 组 的 。 这 意味 着 对 于 在 全 闪存 群集 中 的 一 个 容量 设备 上 和 存储 的 任意 给 定 的 数据 
块 ，VSAN 会 判断 在 那个 特定 的 磁盘 组 上 是 否 已 经 仓 在 一 个 完全 相同 的 块 ， 如 果 有 ， 那 么 哆 无 需 再 保 仓 一 次 ; 如 果 没 有 ，V3SAN 
就 会 执行 数据 压缩 并 把 它 保存 在 磁盘 组 上 一 个 新 的 块 中 。 这 也 意味 着 在 全 闪存 配置 中 ， 根 据 工作 负载 的 情况 ， 创 建 一 个 大 的 磁盘 
组 而 不 是 多 个 小 磁盘 组 可 能 更 有 好 处 ， 因 为 去 重 在 较 大 的 磁盘 组 中 更 有 效 。 不 过 这 需要 更 加 谨慎 的 考虑 ， 因 为 当 一 个 磁盘 组 启用 
了 去 重 和 压缩 之 后 ， 那 个 磁盘 组 的 任何 一 个 设备 (无论 是 缓存 设备 还 是 容量 设备 ) 出 现 故 障 ， 都 会 影响 整个 磁盘 组 。 这 是 因为 空 
间 效 率 的 元 数据 (metadata) 是 分 布 在 磁盘 组 中 所 有 的 容量 设备 上 的 。 不 管 怎样 选择 都 取决 于 管理 员 在 风险 和 收益 之 间 进 行 的 
权衡 。 


3103 ”缓存 设备 与 容量 设备 的 比率 


从 硬件 角度 设计 VSAN 环 境 的 时 候 ， 必 须 认 识 到 VSAN 的 性 能 高 度 依 赖 于 缓 人 存 设备 (内 人 存 ) 。 根 据 经验 ，VMware 建 议 缓存 
容量 对 虚拟 磁盘 容量 总 数 的 比率 要 达到 10%， 这 个 比率 是 在 不 考虑 “可 允许 的 故障 数 ”的 前 提 下 算出 的 。VMware 也 支持 更 低 的 
比例 ， 但 是 较 大 的 比率 能 事实 上 改善 虚拟 机 的 性 能 ， 因 为 更 多 的 I/O 能 被 缓存 。 在 VSAN 环 境 中 ，SSD 将 用 作 虚 拟 机 的 读 缓冲 和 
写 缓存 。 现 在 ， 知 道 在 混合 配置 的 VSAN 和 群集 中 70% 的 缓存 设备 会 被 用 于 读 缓冲 而 30% 用 于 写 缓存 就 已 经 足够 了 。 在 全 闪存 配置 
中 ，100% 的 缓存 设备 都 会 被 用 作 写 缓存 ， 而 且 10% 法 则 也 是 适用 的 。 不 过 增加 (缓存 ) 大 小 不 会 带 来 更 大 的 性 能 提升 ， 因 为 所 
有 的 IO 已 经 全 部 由 缓存 来 提供 了 。 


10% 这 个 数值 是 基于 大 多 数 工作 数据 集 员 的 比率 是 10% 这 样 一 个 假设 得 出 的 。 根 据 这 个 经 验 数据 (仅仅 是 经 验 数据 ) 来 进行 
配置 意味 着 运行 在 虚拟 机 中 的 应 用 程序 的 活动 数据 应 该 都 位 于 闪存 之 中 。 


例如 ， 假 设 我 们 有 100 台 虚拟 机 ， 每 台 虚 拟 机 有 100GB 虚 拟 磁 盘 ， 预 期 平均 使 用 率 是 ?50GB。 此 时 ， 可 计算 得 出 下 面 的 结 


10%X (100X50GB) =500GB 


这 个 数字 是 闪存 容量 的 总 数 ， 应 该 除 以 主机 的 数量 。 如 果 你 有 5 人 台 主 机 ， 那 么 这 个 例子 中 可 以 算出 每 台 主 机 建议 配置 的 闪存 
容量 为 100GB。 





[1] 工作 数据 集 (working data set) 指 的 是 正 被 使 用 的 数据 。 译 者 注 


3.10.4 ”自动 添加 磁盘 到 VSAN 了 磁盘 组 


在 过 去 几 个 版 本 友 布 以 来 ， 选 择 目 动 模式 还 是 手动 模式 一 直 是 个 热 议 的 话题 。 我 们 友 现 大 多 数 情 况 下 ， 客 尸 都 喜欢 目 己 控制 
磁盘 组 的 设备 构成 的 选择 ， 而 手动 模式 才能 实现 这 一 点 。 不 过 某 泽 情况 下 ， 客 户 倾 向 于 让 VSAN 来 进行 磁盘 管理 ， 这 是 完全 受 文 
持 的 。 


如 果 在 VSAN 创 建 流程 中 选择 了 上 自动 模式 ，VSAN 会 自动 友 现 每 台 主 机 上 的 本 地 磁盘 和 本 地 SSD， 并 在 群集 的 每 台 主 机 上 创 
建 磁 盘 组 。 注 意 ， 这 些 S9D 和 磁盘 只 有 在 完全 空置 且 没 有 任何 分 区 信息 的 情况 下 才 会 被 VSAN 声 明 (claim) 。VSAN 不 会 声明 那 
些 IF 在 被 使 用 或 者 过 去 曾 被 用 过 并 携 市 有 数据 的 磁盘 。 要 让 VSAN 声 明 这 些 磁 盘 ， 它 们 必须 先 被 清空 。 


每 一 台 具 有 有 效 存储 的 主机 都 会 有 一 个 含有 本 地 磁盘 和 SSD 的 磁盘 组 。 简 单 来 说 ,磁盘 组 可 以 被 当 作 是 一 个 磁盘 和 SSD 的 容 
器 。 如 前 所 述 ， 每 个 磁盘 组 只 能 包含 一 个 缓存 设备 和 最 多 7 个 容量 设备 ， 不 过 因 不 同 的 ESXi 主 机 而 异 ， 一 台 主 机 可 能 会 有 多 个 磁 
盘 组 。 最 后 ， 当 所 有 这 些 都 完成 后 ，VSAN 数 据 存 储 就 创建 好 了 ， 它 的 大 小 就 是 集群 中 所 有 主机 提供 的 所 有 这 些 容量 设备 的 容量 
忠和 减 去 一 些 元 数据 开销 (metadata overhead) 。 


对 于 那些 不 提供 存储 给 VSAN 数 据 存储 的 VSAN 群 集中 的 主机 来 说 ， 它 们 仍然 可 以 访问 VSAN 数 据 存 储 。 这 是 VSAN 的 一 个 非 
单 有 用 的 特性 ， 因 为 这 样 VSAN 群 集 不 仅仅 可 以 因为 存储 需求 而 横向 扩展 ， 也 可 以 仅仅 因为 计算 需求 进行 扩展 。 不 过 请 注意 ， 出 
于 更 好 地 负载 均衡 、 可 用 性 和 整体 性 能 的 考虑 ，VMware 建 议 群 集中 的 主机 都 采用 完全 一 样 的 配置 。 


尽管 目 动 模式 会 声明 本 地 (local) 磁盘 ， 大 多 数 市 有 SAs 控 制 器 的 ESXi 主 机 会 把 它们 的 硬盘 认 作 远程 (Remote) ， 因 此 
VSAN 不 会 目 动 声明 这 些 磁盘 。 在 这 种 情况 下 ， 即 使 群集 是 配置 成 目 动 模式 的 ，vSphere 管 理 员 仍 将 不 得 不 手工 创建 磁盘 组 ， 在 


第 2 章 中 我 们 曾经 解释 过 这 一 点 。 


3.10.5 ”手工 湛 加 磁盘 到 VSAN 磁 篇 组 


前 面 我 们 提 过 ， 在 创建 VSAN 和 群集 的 时 候 你 可 以 选择 手工 添加 磁盘 。 如 果 选 择 了 这 个 选项 ， 管 理 员 融 可 以 利用 VSAN 配 置身 
导 程 序 来 手工 选择 多 个 缓 仓 设 备 和 多 个 容量 设备 。 管 理 员 可 以 为 每 个 磁盘 组 选择 1~ 7 个 容量 设备 和 最 多 一 个 缓 仔 设 备 。 每 当 一 人 台 
主机 上 的 磁盘 组 创建 完成 ，VSAN 数 据 和 仓储 融会 根据 已 经 添加 的 容量 设备 增长 容量 。 注 意 ， 用 作 缓 仓 设 备 的 99D 是 不 航 计 入 
VSAN 数 据 存 储 的 容量 的 。 


你 可 能 会 想 这 个 手工 选项 什么 时 候 才 用 得 上 呢 ? 首先 也 是 最 主要 的 原因 是 ， 这 是 全 闪存 环境 的 必要 条 件 ， 用 来 确保 为 缓存 层 
和 容量 层 选择 正确 的 闪存 类 型 。 另 一 个 可 能 的 原因 如 下 : 当 VSAN 在 构建 磁盘 组 的 时 候 ， 它 总 试图 用 一 种 前 后 一 致 的 方式 来 进 


行 。 然 而 ， 因 为 使 用 的 是 很 多 种 不 同类 型 的 服务 器 ， 尤 其 是 那些 使 用 SAs 来 连接 磁盘 的 服务 器 ， 手 工 的 方法 或 许 比 目 动 模 式 更 重 
要 。SAS 通 过 唯一 标识 得 来 定义 设备 而 不 是 用 基于 端口 的 方式 。 因 此 在 第 一 台 主 机 上 插 模 1 中 的 磁盘 可 能 加 入 了 ESXi 主 机 1 的 磁盘 
组 1， 而 在 ESXi 主 机 2 上 第 一 个 插 槽 里 面 的 磁盘 可 能 加 入 的 却 是 磁盘 组 2。 当 不 管 因为 什么 原因 需要 更 换 磁 盘 的 时 候 ， 最 最 重要 的 
是 把 正确 的 磁盘 移 除 并 更 换 成 一 块 新 磁盘 。 正 因为 如 此 ，vSphere 管 理 员 可 能 希望 手工 配置 磁盘 组 ， 以 便 能 轻松 地 对 磁盘 进行 标 
识 。 而 且 我 们 发 现 ， 这 正 是 大 多 数 客户 正在 实践 的 做 法， 因为 它 让 替换 设备 更 轻松 。 当 使 用 了 全 闪存 配置 目 类 似 去 重 和 压缩 这 类 
功能 被 局 用时， 所 有 磁盘 必须 同时 被 声明 ， 而 不 能 一 个 一 个 地 被 声明 。 


3.10.6 ”磁盘 组 创建 示例 


创建 磁盘 组 的 操作 仅 在 群集 创建 时 选择 了 手工 模式 后 才 需 要 进行 。 如 果 和 群集 是 以 目 动 异 式 创建 的 ， 那 么 磁盘 组 融会 目 动 帮 你 
创建 好 ， 并 且 目 动 加 入 主机 上 所 有 可 用 的 磁盘 。 创 建 一 个 磁盘 组 的 方法 非常 简单 ， 不 过 如 前 面 所 提 过 的 ， 有 一 些 限 制 条 件 需要 注 


AE. 
fel. 


C 每 个 磁盘 组 最 多 只 能 有 1 个 缓存 设备 


rS 


. 每 个 磁盘 组 最 多 可 以 有 7 个 容量 设备 


如 果 一 台 主 机 含有 7 个 以 上 的 容量 设备 或 者 多 于 1 个 的 缓存 设备 ， 那 么 可 以 创建 多 个 磁盘 组 。 要 创建 一 个 磁盘 组 ， 群 集 必须 
首先 配置 成 手工 模式 ， 如 图 3-21 所 示 。 这 个 可 以 在 VSAN 配 置 过 程 中 完成 ， 不 过 也 可 以 在 VSAN 本 置 完 成 后 骨 变 更 成 手动 模式 。 


T% VSAN-Cluster - Edit Virtual SAN Settings 


W Turn ON Virtual SAN 


Add disks to storage | Manual | * | 


Requires manual claiming of any new disks on the 
included hosts to the shared storage. 


Deduplication and compression 


Enabling or disabling requires a rolling reformat 
of all disks in the VSAN cluster. Depending on 
the amount of data stored, this might take a 
long time. 


A 





图 3-21 启用 VSAN 


当 群 集 处 于 手工 模式 ，VSAN 不 会 试图 声明 存储 设备 。 下 一 步 束 是 手工 创建 磁盘 组 。 用 vSphere Web Client 导 航 到 VSAN 管 
理 下 面 的 Disk Management (磁盘 管理 ) 部 分 时 ， 选 择 群 集中 的 某 一 台 主 机 ， 点 击 图 标 来 创建 一 个 新 的 磁盘 组 。 这 将 会 把 主机 
上 所 有 可 用 的 磁盘 (包括 SSD 和 磁盘 ) 显示 出 来 ， 如 图 3-22 所 示 。 


|" VSAN-Cluster Actions ~ 


Getting Started Summary Monitor | Manage | Related Objects 


Settings Scheduled Tasks | Alarm Definitions Tags | Permissions 

44 Disk Groups 

v Services 
VSphere DRS 











Disk Groups Disks 


au ~ Cinn 了 

Disk Group Virtual SAN H... Type Fault Domain Network Partt... Diak Fc 
vaphere HA 民 10.160.44.211 Healthy Group 1 

v Virtual SAN (à, 10.160.63.118 Healthy Group 1 





General (à, 10.160.58.255 Healthy 


Q 016Da220 - sow 


Fault Domains & Stretched — [3 10.160.53.112 Healthy 
Cluster 


Group 1 


Group 1 
区 10.160.35.83 Healthy Group 1 
Health and Performance (à 10.160.59.70 Healthy Group 1 


v Configuration (4, 10.160.38.86 Healthy Group 1 
General 
Licensing 
VMware EVC 





图 3-22 VSANÆ AE IE 


此 时 vsphere 管 理 员 有 很 多 可 选项 。 如 果 愿 意 ， 管 理 员 可 以 决定 声明 所 有 主机 上 的 所 有 磁盘 ， 或 者 他 们 可 以 一 台 一 人 台地 依次 


为 每 台 主 机 创建 磁盘 组 。 如 果 磁 盘 是 显示 为 not local (例如 那些 位 于 SAS 控 制 器 后 面 的 磁盘 ) ， 第 一 个 选项 会 很 有 用 。 然 而 为 了 
在 更 细 的 粒度 上 进行 控制 ， 管 理 员 可 能 喜欢 每 次 只 为 一 台 主 机 创建 磁盘 组 。 


当 你 决定 手工 创建 磁盘 组 时 ，vSphere Web Client 提 供 了 一 个 非常 直 白 的 用 户 界面 (UI) ， 你 可 以 在 这 个 用 户 界面 中 一 次 
性 选择 容量 设备 和 缓存 设备 ， 如 图 3-23 所 示 。 

如 果 选 择 点 击 第 一 个 图 标 (声明 磁盘 图 标 淹 ) ， 可 以 一 步 就 完成 选择 所 有 主机 上 的 所 有 磁盘 。 如 果 点 击 的 是 第 二 个 图 标 
(创建 磁盘 组 请) ， 那 么 就 会 一 次 仅 对 那 一 台 主 机 上 的 磁盘 进行 操作 。 注 意向 导 程 序 上 方 的 指引 文字 。 主 机 提供 给 VSAN 的 存 
储 必须 至 少 包括 一 个 缓存 设备 和 一 个 容量 设备 。 现 实 中 ， 一 般 来 说 容量 设备 的 数量 会 比 缓存 设备 多 很 多 。 关 于 VSAN 的 最 大 数 
值 ， 让 我 们 再 重申 一 次 : 一 个 磁盘 组 仅 能 包括 1 个 缓存 设备 但 是 可 以 有 多 达 7 个 容量 设备 。 


一 旦 磁盘 组 创建 完成 ，VSAN 数 据 存 储 束 创 建 好 了 。 现 在 VSAN 数 据 存 储 束 可 以 用 于 部 署 虚拟 机 了 。 


3.10.7 VSAN 数 据 存 储 的 属性 


VSAN 数 据 存储 的 大 小 是 由 群集 中 的 ESXi 主 机 数 、 每 台 ESXi 主 机 的 容量 设备 数 决 定 的 。 还 有 一 些 元 数据 开销 需要 考虑 。 例 
如 ， 如 果 一 人 台 群 集中 的 主机 有 7 块 2TB 的 磁盘 ， 整 个 群集 有 8 台 主 机 ， 原 始 容 量 将 有 : 


7X2TIBX8-112TB 


现在 我 们 知道 了 如 何 计算 有 多 少 原 始 容量 可 用 ， 那 么 如 何 获知 我 们 能 拥有 多 少 有 效 容量 呢 ” 好 吧 ， 这 取决 于 多 个 不 同 因素 ， 
不 过 这 一 切 都 始 于 硬件 配置 到 底 是 全 闪存 还 是 混合 配置 。 在 创建 VSAN 群 集 时 ， 取 决 于 配置 到 底 是 全 闪存 还 是 混合 配置 ， 你 会 知 
道 是 否 具 有 选项 “去 重 和 压缩 ”。 去 重 和 压缩 对 全 闪存 配置 的 容量 来 说 扮演 着 非常 重要 的 角色 。 注 意 这 些 数据 服务 对 混合 配置 是 
不 存在 的 。 我 们 将 在 第 5 章 深入 探讨 去 重 和 压缩 。 





Į% VSAN-CIuster - Claim Disks for Virtual SAN Use 


Select which disks should be claimed for cache and which for capacity in the VSAN cluster. The disks below are grouped by model and 
size or by host. The recommended selection has been made based on the available devices in your environment. 


The number of capacity disks must be greater than or equal to the number of cache disks claimed per host. 


la Claim For Drive Type 
~ |j 10.160.32.203 Custom 
Local VMware Disk (mpx.vmhba1:C0:T1:L0) ^ d Cache tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T2:LO) ^ $& Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T3:L0) ^ 4 Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T4:LO) | $& Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T5:L0) Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T6:LO) 总 Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T8:L0) Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhbat:CO:T9:LO) Á Capacity tier Flash. 
~ B 10.160.35.83 Custom 
Local VMware Disk (mpx.vmhba1:C0:T1:L0) | a% Cache tier Flash 
Local VMware Disk (mpx.vmhba1:C0:T2:L0) 六 Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:C0:T3:L0) 总 Capacity tier Flash 
Local Disk (mpx.vmhba1:C0:T4:L0) Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:C0:T5:L0) 总 Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T6:LO) Æ Capacity tier Flash 
Ell Local VMware Disk (mpx.vmhba1:CO:T8:LO) | Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T9:LO) ^ 4 Capacity tier Flash 
~ | 10.160.38.86 Custom 
Local VMware Disk (mpx.vmhba1:CO:T1:LO) ^ dA Cache tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T2:LO) | Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T3:LO) Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T4:LO) | Æ Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T5:LO0) 总 Capacity tier Flash 
Local VMware Disk (mpx.vmhba1:CO:T6:LO) 总 Capacity tier Flash 
- E ical VMware Disk (mnr. vmhba1:C0: TR-HL OS kA Capacity tie Flastk 


Total cache: 450GB Total capacity: 2.69 TB 


Configuration validation: 





v^ Configuration correct 











Total Capacity xr 
50 GB Paralle 
50 GB Parallel 
50 GB Paralle 
50 GB Parallel 
50 GB Paralle 
50 GB Parallel 
50 GB Paralle 
50GB Parallel 
50 GB Parallel | 
50 GB Paralle 
50 GB Parallel 
50 GB Paralle 
50 GB Parallel - 
50 GB Parallel 
50 GB Parallel | 
50 GB Paralle 
50 GB Paralle 
50 GB Parallel 
50 GB Parallel ' 
50 GB Parallel 
50 GB Paralle 
50 GB Parallel | 
11 H : - M 
72:!tems [四 ~ 





但 是 不 仅仅 是 去 重 和 压缩 ， 我 们 还 需要 考虑 虚拟 机 的 副本 数量 ， 这 是 


图 3-23 ”为 VSAN 声 明 磁 盘 


通过 基于 策略 的 管理 构架 来 启用 的 。 


创建 完 磁盘 组 后 ，VSAN 融 配置 完成 了 。V3SAN 数 据 仔 储 一 旦 构建 完成 ， 它 的 很 多 数据 仓储 功能 融会 企 vCenter Server 界 面 
中 显示 出 来 。 这 些 功 能 将 会 用 于 创建 相应 的 虚拟 机 存储 策略 ， 并 应 用 于 部 署 在 VSAN 数 据 存 储 上 的 虚拟 机 及 其 天 联 的 虚拟 磁盘 
(VMDK) 存储 对 象 上 。 其 功能 包括 条 带宽 度 (stripe width) 、 人 允许 的 故障 数 (number of failures to tolerate) 、 强 制 置 备 
(force provisioning) 、 已 配置 容量 (provisioned capacity) ， 以 及 复制 机 制 (replication mechanism) 是 为 性 能 优化 还 是 
为 容量 优化 的 。 然 而 ， 在 开始 部 署 虚拟 机 之 前 ， 首 先 需 要 理解 如 何 创建 合适 的 虚拟 机 存储 策略 来 满足 虚拟 机 内 运行 着 的 应 用 的 需 


虚拟 机 存储 策略 和 VSAN 的 功能 将 在 第 4 草 中 深入 探讨 。 现 在 需要 知道 的 是 这 些 功能 形成 了 虚拟 机 策略 的 需求 。 在 需要 进行 
虚拟 机 置 备 时 ， 它 们 使 vsphere 管 理 员 可 以 基于 性 能 、 可 用 性 和 数据 服务 来 提出 需求 。 下 一 章 我 们 将 讨论 在 VSAN 语 境 下 的 虚拟 
机 存储 策略 ， 以 及 如 何 正确 地 利用 VSAN 的 功能 来 部 署 一 台 庶 拟 机 。 


3.11 小结 


如 果 一 切 都 如 设计 好 的 那样 配置 和 运行 ， 只 需要 几 下 点 击 丈 可 完成 VSAN 的 配置 。 然 而 ， 最 重要 最 关键 的 是 基础 架构 要 事先 
做 好 准备 。 定 义 好 合理 的 磁盘 驱动 器 数量 、 为 性 能 考虑 决定 好 合适 的 闪存 资源 的 大 小 、 验 证 好 网 络 已 经 可 以 提供 最 高 的 可 用 性 和 
性 能 ， 这 些 都 是 必须 事先 准备 好 的 前 提 条 件 。 


现在 VSAN 群 集 已 经 搭建 完成 并 开始 运行 了 。 接 下 去 我 们 将 涉及 虚拟 机 存储 策略 。 这 些 策 略 必须 基于 运行 在 虚拟 机 中 的 应 用 
程序 的 实际 需求 来 创建 。 下 一 章 我 们 将 探讨 如 何 实现 乙 。 


第 4 草 VSAN 相 关 的 虚拟 机 和 存储 策略 


VMware 在 vSphere 5.0 中 提供 了 一 个 叫做 配置 文件 驱动 的 仓储 (Profile-Driven Storage) 功能 。 这 个 功能 使 得 vSphere 管 
理 员 在 部 署 虚拟 机 时 可 以 轻松 地 选择 正确 的 数据 存储。 对 数据 存储 的 选择 是 基于 数据 仔 储 的 能 力 做 出 的 ， 或 者 更 具体 来 训 ， 分 配 
给 这 个 数据 存储 的 底层 存储 阵列 的 功能 ， 比 如 RAID 级 别 、 精 简 置 备 、 去 重 、 加 密 、 复 制 ， 等 等 。 这 些 功 能 完全 依赖 于 存储 阵 
Al. 


在 虚拟 机 的 整个 生命 周期 里 ， 配 置 文件 驱动 的 存储 让 管理 员 可 以 检查 其 底层 的 存储 是 否 仍然 处 于 兼容 状态 一 换 句 话说 ， 
虚拟 机 所 在 的 数据 存储 是 否 仍然 能 为 虚拟 机 提供 正确 的 功能 ? 为 什么 说 这 个 功能 很 有 用 ? 这 是 因为 当 虚 拟 机 不 管 因 什 么 理由 被 迁 
移 到 另外 一 个 数据 存储 的 时 候 ， 管 理 员 仍 能 保证 数据 存储 可 以 继续 满足 其 需求 。 即 使 虚拟 机 在 迁移 到 一 个 数据 存储 前 没有 检查 过 
目的 存储 的 能 力 ， 管 理 员 仍 可 以 随时 通过 vSphere 客 户 端 由 来 检查 虚拟 机 所 在 存储 的 合 规 性 ， 并 可 以 在 当前 存储 不 再 满足 虚拟 机 
对 存储 的 需求 时 采取 改正 措施 〈 即 把 虚拟 机 迁 回 一 个 合 规 的 数据 存储 ) 。 


然而 ， 虚 拟 机 存储 策略 以 及 存储 策略 驱动 的 管理 (SPBM) 在 此 基础 上 更 进 了 一 步 。 上 一 段 我 们 描述 了 一 种 由 存储 驱动 的 存 
储 服务 质量 一 一 在 同一 个 数据 存储 上 的 所 有 虚拟 机 会 继承 该 数据 存储 的 能 力 。 而 对 于 VSAN， 和 存储 服务 质量 不 再 存在 于 数据 存储 
之 上 ， 而 是 仓 在 于 虚拟 机 中 并 由 与 虚拟 机 和 虚拟 磁盘 (VMDK) 相关 联 的 虚拟 机 存储 策略 来 实施 的 。 一 旦 策略 被 推送 到 存储 层 


一 一 这 个 例子 中 束 是 VSAN 一 一 底层 存储 就 会 负责 为 虚拟 机 创建 满足 策略 中 的 要 求 的 存储 。 


[1] 由 于 只 有 vSphere Web 客 户 端 才能 支持 VSAN 相 关 的 配置 ， 此 本 书 中 如 无 特殊 说 明 ，vSphete 客 户 端 均 指 vSphete Web 客 户 端 。 





译 者 注 


4.1 在 VSAN 环 境 中 引入 基于 和 存储 策略 的 管理 


VSAN 使 用 一 种 叫做 基于 存储 策略 的 管理 (storage policy-based management, SPBM) 的 改进 方法 来 部 署 虚拟 机 。 所 
有 部 署 在 VSAN 数 据 存 储 上 的 虚拟 机 都 必须 使 用 一 种 虚拟 机 存储 策略 。 即 使 没有 特别 创建 过 ， 也 会 有 一 个 关联 于 数据 存储 的 默认 
策略 分 配给 虚拟 机 。 虚 拟 机 存储 策略 包含 一 个 或 多 个 VSAN 功 能 ， 这 些 功能 将 在 本 章 一 一 介绍 。 当 VSAN 群 集 配置 完成 ，VSAN 
数据 存储 已 经 创建 出 来 后 ，vCenter Server 中 就 会 多 出 一 组 VSAN 相 关 的 功能 。 当 群集 成 功 配 置 后 ， 这 些 由 VASAI'j 存 储 提供 程 
F (马上 还 会 介绍 更 多 内 容 ) 带 来 的 功能 可 在 虚拟 机 部 署 到 VSAN 数 据 存储 上 时 对 每 个 虚拟 机 (及 每 个 VMDK) 设置 可 用 性 、 容 
量 以 及 性 能 策略 。 


如 前 所 述 ， 这 和 之 前 vSphere 版 本 中 的 虚拟 机 存储 配置 文件 机 制 大 为 不 同 。 对 于 虚拟 机 存储 配置 文件 来 说 ， 其 功能 和 数据 存 
储 相关 联 ， 用 于 虚拟 机 放置 决策 。 现 在 ,管理 员 通 过 SPBM 为 虚拟 机 创建 了 一 个 定义 了 存储 要 求 的 策略 ， 这 个 策略 被 推送 到 存 
储 ， 结 果 为 虚拟 机 创建 了 基于 每 个 虚拟 机 (以 及 每 个 VMDK) 的 存储 。VMware 在 vSphere 6.0 引 入 了 虚拟 卷 (VVols) 。 使 用 
VVols 的 虚拟 机 的 SPBM 和 部 署 在 VSAN 上 的 虚拟 机 的 SPBM 非 常 像 。 换 句 话说 ， 管 理 员 无 须 再 精心 调试 用 于 虚拟 机 存储 的 LUN 
或 卷 ， 而 只 需要 让 存储 基础 架构 基于 策略 的 内 容 来 实现 虚拟 机 的 存储 。 现 在 随 着 SPBM 我 们 拥有 了 一 种 机 制 ， 通 过 它 我 们 可 以 指 
明 虚 拟 机 及 VMDK 的 要 求 ， 并 用 这 些 要 求 来 创建 一 个 策略 。 然 后 把 这 个 策略 传递 给 存储 层 (就 VVols 来 说 ， 这 是 指 SAN 或 NAS 存 
储 阵列 ) ， 令 其 为 这 台 虚 拟 机 创建 一 个 满足 策略 需求 的 存储 对 象 。 事 实 上 ， 一 人 台 虚 拟 机 可 以 拥有 多 个 与 之 关联 的 策略 ， 不 同 的 策 
略 作 用 于 不 同 的 VMDK。 


让 我 们 来 解释 一 下 功能 、 策 略 和 配置 文件 。 功 能 就 是 底层 存储 提供 可 用 性 、 性 能 和 可 靠 性 等 方面 的 能 力 ， 这 些 功 能 可 以 在 
vCenter Server 中 看 人 到， 并 被 用 来 创建 一 个 虚拟 机 存储 策略 (后 面 简 称 策略 ) 。 策 略 可 能 包含 一 个 或 多 个 功能 ， 而 这 些 功能 反映 
了 虚拟 机 或 者 运行 在 虚拟 机 上 的 应 用 程序 的 需求 。 早 先 版 本 的 vSphere 使 用 术语 配置 文件 ， 现 在 它们 被 称 为 策略 。 


在 VSAN 数 据 存储 上 部 署 虚 拟 机 和 之 前 的 vSphere 版 本 的 方法 差别 很 大 。 以 前 ， 管 理 员 要 先 给 一 组 ESXi 主 机 提供 一 个 LUN 或 
卷 (volume) 来 存放 虚拟 机 ， 对 于 块 存储 来 说 ， 还 需要 进行 分 区 、 格 式 化 并 构建 VMFS 文 件 系统 来 创建 一 个 数据 存储 来 存储 虚 
拟 机 文件 。 对 于 网 络 附加 存储 (NAS) 来 说 ， 则 要 把 一 个 NFS 卷 挂 载 到 ESXi 主 机 上 来 形成 数据 存储 。 不 可 能 为 这 些 VM DK 指定 
RAID-0 的 条 带宽 度 ， 也 不 可 能 为 YM DK 指定 RAID-1 副 本 。 


对 于 VSAN (现在 也 包括 VVols) 来 况 ， 部 署 虚拟 机 的 方法 很 不 一 样 。 必 须要 考虑 VM 上 运行 的 应 用 程序 的 可 用 性 、 性 能 和 
可 靠 性 等 因素 。 基 于 这 些 要 求 ， 束 必须 要 创建 一 个 合适 的 虚拟 机 存储 策略 并 在 部 团 时 将 其 与 虚拟 机 关联 起 来 。 


在 VSAN 的 最 初 友 行 版 中 有 5 种 功能 ， 如 图 4-1 所 示 。 


ES Create New VM Storage Policy 


v^ 1 Name and description Rule-Set 1 
Select rules to create your VM storage policy. 
w' 2 Rule-Sets * The VM storage policy will match datastores that satisfy any of the rule sets. 


* A rule set will match datastores that satisfy all ofthe selected rules. 


2a Rule-Set 1 
3 Storage compatibili MM 000 A000. T hs 
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| Add another rule set Remowve this rule set 
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图 4-1 用 于 虚拟 机 存储 策略 的 VSAN 功 能 


在 VSAN 6.2 中 ， 功 能 的 数量 增加 了 ， 以 支持 一 些 新 特性 。 这 些 特性 包括 为 部 署 在 全 闪存 VSAN 配 置 上 的 虚拟 机 对 象 实施 
RAID-5 和 RAID-6 配 置 的 能 力 (除了 支持 现 有 的 RAID-0 和 RAID-1 配 置 之 外 ) 。 随 着 RAID-5 和 RAID-6 的 引入 ，VSAN 现 在 可 以 容 
忍 1 个 或 2 个 故障 ， 它 还 意味 着 消耗 的 空间 远 小 于 类 似 的 可 以 容忍 1 个 故障 的 RAID-1 配 置 。 还 有 一 个 用 于 软件 校 验 和 (software 
checksum) 的 新 策略 。 校 验 和 默认 是 启用 的 ， 不 过 如 果 管 理 员 希 望 的 话 ， 可 以 通过 策略 来 禁用 。 最 后 一 个 功能 和 和 QoS 有关 ,， 它 
提供 了 对 特定 对 象 进行 每 秒 输入 输出 操作 (IOPS) 数量 进行 限制 的 功能 。 


你 可 以 在 创建 虚拟 机 存储 策略 时 选择 所 需 的 功能 。 注 意 ， 部 分 功能 适用 于 VSAN 混 合 配置 (例如 闪存 读 取 缓存 预 留 ) ， 而 另 
外 一 些 则 适用 于 VSAN 全 闪存 配置 (例如 用 于 性 能 的 容错 方法 ) 。 


虚拟 机 存储 策略 对 于 VSAN 部 署 非常 重要 ， 因 为 它们 定义 了 一 台 虚 拟 机 是 如 何 部 署 到 VSAN 数 据 存 储 上 的 。 通 过 虚拟 机 存储 
策略 ， 你 可 以 定义 VMDK 的 RAID-0 条 带 组 件 的 数量 或 者 一 个 VM DK 的 RAID-1 镜 像 副 本 的 数量 。 如 果 管 理 员 希 望 一 台 虚 拟 机 可 以 
允许 友 生 一 个 故障 但 是 又 不 希望 像 RAID-1 镜 像 那样 消耗 那么 多 的 空间 ， 残 可 以 使 用 RAID-5 配 置 。 这 要 求 群集 至 少 包含 4 台 主 机 
并 且 在 所 有 4 台 主 机 的 存储 上 实施 一 种 分 布 式 校 验 机 制 。 如 果 通 过 RAID-1 来 实现 的 话 ， 消 耗 的 容量 将 是 VM DK 的 2 倍 ， 而 通过 


RAID-5 消 耗 的 容量 将 只 有 VMDK 大 小 的 133%。 


类 似 地 ， 如 果 管 理 员 希 望 一 台 虚 拟 机 可 以 允许 友 生 两 个 故障 ， 当 使 用 RAID-1 镜 像 配 置 时 ，VMDK 将 会 需要 3 个 副本 ,意味 着 
所 需 消耗 的 容量 是 VM DK 大 小 的 3 倍 。 使 用 RAID-6 则 会 实施 双重 校 验 ， 这 些 校 验 也 将 分 布 在 所 有 主机 上 。 实 现 RAID-6 在 群集 中 
至 少 需要 6 人 台 主 机 ， 它 允许 虚拟 机 容忍 两 个 故障 ， 但 是 仪 仅 消 耗 相 当 于 VM DK 大 小 的 150% 的 容量 。 


图 4-2 显 示 了 VSAN 6.2 引 入 的 新 的 策略 。 


ES Create New VM Storage Policy 


v^ 1 Name and description Rule-Set 1 
Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
v 2 Rule-Sets The VM storage policy will match datastores that satisfy all the rules in at least one of the rule-sets. 
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图 4-2 VSAN 的 新 功能 


接 下 去 的 草书 中 我 们 会 关注 在 创建 虚拟 机 存储 策略 时 何 处 应 该 使 用 这 些 功能 ， 以 及 何 时 应 该 将 它们 设置 成 与 默认 值 不 同 的 数 
值 。 记 住 ， 一 个 虚拟 机 存储 策略 可 以 包含 一 个 或 多 个 功能 。 


在 VSAN 的 最 初 发 行 版 本 中 ，VM 人 存储 策略 具有 5 种 可 供 选 择 的 功能 。 如 前 所 述 ， 在 VSAN 6.2 中 增加 了 几 个 新 功能 。 作 为 管 
理 员 ， 你 可 以 决定 在 策略 中 加 入 哪些 功能 ， 当 然 这 应 该 取决 于 虚拟 机 的 要 求 。 例 如 ， 虚 拟 机 要 求 的 性 能 和 可 用 性 是 怎样 的 ? 这 些 
功能 包括 : 


允许 的 故障 数 (Number of Failures to Tolerate) 
- 每 个 对 象 的 磁盘 带 数 (Number of Disk Stripes per Object) 
- 容错 方法 (Failure tolerance method) 
- 对 象 的 IOPS 限 制 (IOPS limit for object) 
- 禁用 对 象 校 验 和 (Disable object checksum) 
- 闪存 读 取 缓 存 预 留 (Flash Read Cache Reservation) ( 仅 适 用 于 混合 配置 ) 
- 对 象 空间 预 留 (Object Space Reservation) 
强制 置 备 (Force Provisioning) 
接 下 来 我 们 将 详细 摘 述 这 些 VSAN 功 能 。 


[1] VASA 即 vSphere APIs for Storage Awareness 的 缩写 ， 字 面 上 翻译 就 是 存储 感知 的 vSphere 应 用 程序 编程 接口 ， 它 使 得 vSphere 可 以 
直接 调用 存储 本 身 的 特性 (例如 硬件 级 别 的 快照 和 复制 ) ， 并 同时 将 存储 的 功能 反映 在 vSphere 管 理 软 件 中 。 译 者 注 





4.1.1 允许 的 故障 妆 


本 小 节 中 提 到 人 允许 的 故障 数 (number of failures to tolerate) 都 是 假设 容错 方法 (failure tolerance method) 设置 为 默 
认 值 ， 也 残 是 性 能 (Performance) 时 。 后 文 我 们 会 描述 另外 一 种 场景 ， 也 就 是 容错 方法 设置 成 容量 (Capacity) 时 。 

这 个 功能 设置 要 求 仔 储 对 象 全 少 在 群集 中 能 容忍 n 个 故障 ， 这 是 指 在 仍 能 保证 对 象 可 用 的 情况 下 ， 和 群集 中 允许 出 现 的 可 能 的 
主机 、 网 络 或 磁盘 同时 发 生 故 障 的 数量 。 当 容错 方法 设置 成 默认 值 RAID-1 时 ， 虚 拟 机 的 存储 对 象 是 被 镜像 的 ， 不 过 这 种 镜像 是 
压 ESXI 主 机 进行 的 ， 如 图 4-3 所 示 。 





EE ë ë — —  — ë 
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ESXi 主机 | 


图 4-3 ”反映 在 RAID-1 配 置 中 的 允许 的 故障 数 
表 4-1 为 满足 允许 的 故障 数 要 求 所 需要 的 见证 和 主机 


允许 的 
故障 数 


最 少 ESXI 
主机 数 


Ü | 
| 3 
2 5 
3 7 





当 这 个 功能 值 被 设置 成 n 时 ， 意 味 厦 VSAN 配 置 必 须 包 含 至 少 n+ 1 个 副本 (数据 拷贝 )， 这 也 暗示 着 和 群集 中 需要 2n+1 台 主 
机 。 


注意 ， 为 了 满足 这 个 要 求 ， 虚 拟 机 的 配置 中 可 能 还 包含 了 一 些 额外 的 被 实例 化 的 见证 组 件 (witness component) ， 这 些 
组 件 保 证 了 即使 同时 发 生 了 设 定 数量 的 故障 的 情况 下 ， 对 象 数据 仍 可 用 ， 见 表 4-1。 人 在 群集 友 生 故障 时 或 在 上 友 生 和 裂 脑 (split- 
brain) 情况 时 ， 见 证 提供 仲裁 机 制 来 帮助 做 出 决策 。 这 些 见证 将 在 本 书 的 后 面 草 节 里 详细 讨论 ， 现 在 只 需要 知道 在 友 生 故障 时 
以 及 进行 维护 任务 时 它们 是 保持 虚拟 机 可 用 性 的 必要 组 成 部 分 即 可 。 


值得 提 及 的 一 点 是 ， 在 单 台 主机 上 的 任何 磁盘 故障 都 会 在 这 个 表格 中 被 算 成 一 次 “故障 ” (尽管 同一 主机 上 的 多 个 磁盘 故障 
还 是 会 被 算 成 一 个 故障 ) 。 因 此 在 人 允许 的 故障 数 为 1 时 ， 如 果 在 主机 A 上 上 友 生 一 个 磁盘 故障 而 同时 主机 B 又 出 现 了 问题 时 ， 虚 拟 机 
可 能 无 法 继续 保持 可 用 。 


如 果 磁 盘 对 象 的 条 市 数 被 设 成 1， 表 4-1 融 是 正确 的 。 如 果 条 市 锅 度 大 于 1， 则 结果 会 有 细微 的 区 别 。 每 个 对 象 的 磁盘 市 数 会 
在 后 文 深入 讨论 。 


如 果 在 虚拟 机 部 署 的 时 候 没 有 选择 任何 策略 ， 关 联 到 VSAN 数 据 存储 的 默认 策略 就 会 被 选中 ， 这 会 将 允许 的 故障 数 设 成 1。 
在 创建 一 个 新 策略 的 时 候 ， 人 允许 的 故障 数 的 默认 值 也 是 1。 这 意味 着 即使 没有 在 策略 中 明确 说 明 ， 它 也 已 经 上 暗 谷 在 内 了 。 


4.1.2 Zi 


这 是 VSAN 6.2 带 来 的 一 个 新 功能 ， 它 让 管理 员 可 以 为 虚拟 机 对 象 选择 使 用 RAID-1 或 是 RAID-5/6 配 置 。 容 错 方 法 (failure 
tolerance method) 是 和 允许 的 故障 数 (number of failures to tolerate) 结合 起 来 一 起 使 用 的 。 这 个 设置 的 目的 是 让 管理 员 
在 性 能 和 容量 之 间 进 行 选择 。 如 果 性 能 是 管理 员 的 终极 目标 ， 那 么 应 该 选择 RAID-1 ( 仍 是 默认 选项 ) 。 如 果 管 理 员 不 需要 最 高 
性 能 而 是 更 关心 容量 的 使 用 率 ， 那 么 应 该 选择 RAID-5/6。 解 释 它们 最 简单 的 方法 就 是 通过 表 来 显示 不 同 的 策略 设置 及 其 对 象 配 
置 的 结果 ， 如 表 4-2 所 示 。 


表 4-2 确定 了 允许 的 故障 数 和 容错 方法 后 的 对 象 配置 


允许 的 故障 数 容错 方法 需要 的 ESXi 主机 数量 
0 RAID5/6 ( 纠 删 码 ) I 
| 
RAID5/6( 纠 删 码 ) 4 
| 
| 5 





Uu3|U2|[blt2|t2|—5 |1— | 0 


从 表 4-2 中 可 以 看 出 ， 当 选择 的 容错 方法 是 RAID-5/6 时 ， 实 施 的 是 RAID-5 还 是 RAID-6 取 决 于 你 希望 容忍 的 故障 数量 (尽管 
它 文 持 的 允许 的 故障 数 最 大 值 是 2) 。 如 果 希 望 考虑 的 是 性 能 ， 那 么 实施 传统 的 RAID-1， 要 知道 这 个 万 法 使 用 对 象 的 镜像 副本 ， 


因此 消耗 的 容量 会 多 很 多 。 


你 可 能 会 问 为 什么 RAID-5/6 的 性 能 低 于 RAID-1? 原因 在 于 MO 放大 效应 。 在 稳定 状态 下 ， 也 残 是 群集 中 没有 故障 的 时 候 ， 
无 论 是 RAID-5/6 还 是 RAID-1 都 没有 读 放 大 (Read amplification) ， 但 是 仔 在 写 放 大 。 这 是 因为 当 写 入 天 联 的 数据 组 件 的 时 
候 ， 校 验 组 件 每 次 都 需要 更 新 。 束 RAID-5 来 说 ， 需 要 首先 读 取 即将 更 新 的 组 件 以 及 额外 写 入 的 数据 ， 表 读 取现 在 的 校 验 值 ， 把 
新 写 入 的 数据 和 当前 数据 进行 合并 然后 再 回 写 ， 最 后 计算 新 的 校 验 值 并 回 写 校 验 值 。 大 体 上 单 次 写 操作 会 被 放大 为 2 次 读 和 2 次 
写 。 对 于 具有 双重 校 验 的 RAID-6 来 襄 ， 单 次 写 操作 会 被 放大 为 3 次 读 和 3 次 写 。 


而 且 ， 当 RAID-5/VRAID-6 对 象 中 的 一 毕 组 件 友 生 故 障 时 ， 数 据 需要 通过 校 验 来 重 构 ， 那 么 此 时 MO 的 放大 效应 融会 更 加 明 
。 这 些 是 管理 员 在 决定 容错 方法 时 需要 考虑 的 事项 。 


IT 


有 一 件 需要 时 刻 记 住 的 事情 是 ， 尽 管 容错 方法 设置 成 RAID5/6 时 消耗 较 少 的 容量 ， 比 起 传统 的 RAID-1 它 的 确 需 要 更 多 的 主 
机 ， 而 且 也 只 支持 全 闪存 配置 。RAID-1 时 ， 规 则 是 要 允许 数量 为 n 个 故障 ， 必 须 为 镜像 副本 和 见证 准备 2n+1 台 主机 。 也 就 是 
说 ， 要 在 一 个 群集 中 要 允许 1 个 故障 ， 就 需要 3 台 主 机 ; 要 容忍 2 个 故障 ， 则 需要 5 台 主 机 ; 要 容忍 3 个 故障 需要 7 台 主 机 ， 这 里 所 
有 的 主机 都 需要 为 VSAN 数 据 存储 提供 存储 空间 。 容 错 方 法 设置 为 RAID-5/6 时 ， 尽 管 每 人 台 主 机 消耗 的 容量 较 小 ， 容 忍 1 个 故障 需 
要 4 台 主 机 ， 而 要 容忍 2 个 故障 则 需要 6 台 主 机 。 图 4-4 显 示 了 一 个 对 象 实例 ， 它 及 用 RAID-5 配 置 ， 其 分 布 式 校 验 横 跨 了 4 台 主 
机 。 





图 4-4 RAID-5 配 置 ， 容 错 方法 设 为 RAID-5/6 且 允许 的 故障 数 为 1 时 的 结 


RAID-5 或 RAID-6 配 置 也 可 以 和 每 个 对 象 的 磁盘 市 数 配 合 使 用 。 如 果 容 锯 万 法 设置 为 RAID-5/6 的 同时 ， 策 略 中 还 设置 了 条 
市 宽度 ， 每 台 主 机 中 的 每 个 组 件 会 以 RAID-0 配 置 被 条 市 化 ， 并 且 依 次 放置 在 RAID-5 或 RAID-6 配 置 中 。 


最 后 一 点 和 人 允许 的 故障 数 设置 成 0 或 3 有 天 。 如 果 虚 拟 机 部 署 时 具有 这 样 的 集 略 设置 ， 且 包含 有 容错 方法 为 RAID5/6， 虚 拟 
机 置 备 的 向 导 程序 会 显示 一 条 管 示 消息 ， 提 示 这 个 策略 只 有 在 允许 的 故障 数 为 1 或 2 时 才 会 生效 。 你 仍然 可 以 继续 部 署 虚拟 机 ,， 
但 是 对 象 会 以 单个 RAID-0 对 象 的 方式 实现 。 


4.1.3 ”每 个 对 象 的 磁盘 市 数 


这 个 功能 定义 了 一 个 已 条 市 化 了 的 存储 对 象 ( 如 VMDK) 其 每 个 副本 横 跨 的 物理 磁盘 数量 。 当 容错 方法 为 性 能 时 ， 这 可 以 
比 作 RAID-0 配 置 的 场景 ，I/O 分 散 到 了 多 个 物理 磁盘 上 。 当 容 锯 万 法 为 容量 时 ，RAID-5 或 RAID-6 条 市 的 每 个 组 件 也 可 能 被 配置 
为 RAID-0 条 市 。 通 剃 情况 下 ， 当 定义 好 了 每 个 对 象 的 磁盘 市 数 时 ， 人 允许 的 故障 数 也 会 设 定好 。 图 4-5 显 示 了 这 两 种 功能 组 合 在 一 
起 的 情况 ， 这 里 我 们 再 一 次 假设 新 的 VSAN 6.2 的 容错 方法 为 其 默认 值 RAID-1。 
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图 4-5” 当 条 带宽 度 设 成 2 且 允 许 的 故障 数 设 成 1 且 为 其 优化 的 复制 方法 没有 设置 时 的 存储 对 人 象 配 置 情 况 


要 理解 条 市 宽度 的 影响 ， 让 我 们 先 来 看 看 它 在 写 操 作 中 是 如 何 作用 的 ， 然 后 再 看 读 操作 。 


因为 所 有 的 写 操作 都 会 先 写 入 缓存 设备 写 缓存 中 ， 增 加 条 囊 客 度 对 增加 性 能 可 能 有 作用 也 可 能 没 哈 作 用 。 因 为 无 法 保证 增加 
的 新 条 市 会 使 用 不 同 的 缓 仔 设 备 ， 新 的 条 市 可 能 会 被 放置 在 一 块 位 于 同一 个 磁盘 组 里 的 容量 设备 上 ， 因 此 新 的 条 市 会 使 用 同一 个 
缓 仔 设 备 。 如 果 新 的 条 市 银 置 于 一 个 不 同 的 磁盘 组 中 (不 管 是 在 同一 台 主 机 还 是 不 同 的 主机 上 ) ， 束 会 利用 到 一 个 不 同 的 缓存 设 
备 ， 因 此 可 能 会 市 来 性 能 的 提升 。 不 过 ， 作 为 管理 员 ， 你 无 法 控制 这 种 行为 的 友 生 。 唯 一 增加 条 市 金 度 确 保 可 以 增加 性 能 的 情况 
及 生 人 在 大 量 的 写 操作 从 缓 仓 层 回 写 到 容量 层 时 。 在 这 种 情况 下 ， 增 加 条 市 可 以 提高 回 写 性 能 。 


从 读 的 角度 来 况 ， 增 加 条 市 金 度 在 大 量 读 缓 仓 没 有 命中 的 情况 下 会 对 性 能 有 所 帮助 。 注 意 ， 这 仪 对 混合 配置 而 言 ， 全 闪存 
VSAN 没 有 读 缓 仔 。 举 例 来 况 ， 假 设 一 人 台 部 署 在 混合 型 VSAN 上 的 虚拟 机 每 秒 有 2000 次 读 操作 ， 并 且 读 缓 仓 售 中 率 是 90%， 人 在 这 
种 情况 下 仍然 有 200 个 读 操 作 需要 由 容量 层 中 的 磁盘 直接 提供 服务 。 假 设 单 块 磁盘 只 能 提供 每 秒 120 次 MO 操作 ， 显 然 不 能 满足 所 


有 读 操作 的 要 求 ， 这 时 增加 条 市 客 度 束 可 以 起 作用 ， 满 足 虚 拟 机 对 磁盘 |/O 的 要 求 。 在 极端 读 密 集 的 情况 下 ， 全 闪存 VSAN 中 条 


市 化 到 多 个 容量 内 存 设备 也 能 提升 性 能 。 


一 般 来 说 ， 默 认 的 条 市 宽度 值 1 应 该 可 以 满足 大 多 数 甚至 所 有 虚拟 机 的 工作 负载 。 只 有 确认 了 大 块 回 写 或 大 量 读 缓存 没有 命 
中 间 题 存在 并 成 了 性 能 限制 时 才 需 要 更 改 条 市 宽度 值 。 


4.1.4. XJZxsBSIOPS DI 


对 和 象 的 IOPs 限 制 (IOPS limit for object) 是 VSAN 6.2 新 出 现 的 QoS 功 能 。 它 让 管理 员 可 以 确保 某 个 对 象 (例如 VMDK) 
“会 产生 超过 某 个 数值 的 每 秒 输入 /输出 操作 (IOPS) 。 这 是 一 个 很 好 的 方法 ， 它 可 以 确保 一 个 “ 吵 闸 的 邻居 ”虚拟 机 不 会 因为 
消 邦 了 超过 合理 范围 的 资源 而 影响 同一 个 磁盘 组 上 的 其 他 虚拟 机 。 默 认 情 况 下 ，VSAN 1/O 的 基本 块 大 小 为 32KB， 这 总 味 看 一 个 
64KB 的 MO 在 这 种 限制 数 的 计算 中 会 被 当 作 2 个 MO 操作 。 小 于 或 等 于 32KB 的 MO 将 被 视 为 一 个 MO 操作 。 例 如 ，2 个 4KB 的 MO 会 
馈 视 为 2 个 不 同 的 I/O 操 作 。 另 外 需要 注意 的 是 ， 读 操作 和 写 操作 将 被 视 为 等 效 的 ， 而 且 不 会 考虑 缓存 命中 率 和 顺序 。 如 果 磁 盘 
的 IOPs 超 出 限制 ， 则 MO 操作 将 受 限 ，IOPs 数 会 压 回 到 限制 国 值 乙 下 。 这 个 功能 的 黑 认 值 为 0， 意 味 着 不 对 IOPSs 设 限 ， 虚 拟 机 
可 以 想 用 多 少 IOPS 束 用 多 少 ， 只 要 可 用 资源 许可 。 


4.1.5 “内 仔 读 取 缓 仔 预 贸 


这 个 功能 只 适用 于 混合 VSAN 配 置 ， 它 是 给 存储 对 象 作 为 读 缓 仔 而 预 留 的 缓 仔 层 设备 上 的 闪存 的 数量 ， 其 数值 表示 为 人 存储 对 
R (如 VMDK) 逻辑 大 小 的 一 个 百分比 ， 这 个 百分比 的 数值 最 多 可 以 精确 到 小 数 点 后 4 位 。 这 么 细 的 粒 硫 是 必要 的 ， 这 样 管理 员 
才能 表示 小 于 1% 的 单位 。 以 1TB 的 VMDK 为 例 ， 如 果 读 缓 仔 预 留 只 能 以 每 次 1% 的 粒度 来 增加 ， 这 融 意 味 着 每 次 要 增加 10GB， 
这 企 大 多 数 情况 下 对 单 台 虚拟 机 来 说 都 太 多 了 。 


注意 ， 人 允许 存储 对 象 使 用 缓存 并 不 需要 设置 一 个 预 留 值 。 所 有 虚拟 机 都 平等 地 共享 缓存 设备 的 读 缓存 。 这 个 预 留 值 应 该 不 作 
任何 设置 (默认 值 ) ， 除 非 的 确 有 一 个 读 性 能 问题 需要 解决 而 且 你 确信 变更 读 绥 存 可 以 解决 问题 。 如 果 在 虚拟 机 存储 策略 中 添加 
了 这 个 功能 并 将 数值 设置 为 0， 那 么 使 用 这 个 策略 的 虚拟 机 束 不 会 具有 任何 读 缓存 。 在 当前 版 本 的 VSAN 中 ， 疫 有 在 多 台 使 用 读 
缓存 的 虚拟 机 之 间 按 比例 分 享 资 源 的 机 制 ， 因 此 ， 每 从 虚拟 机 都 平等 地 分 享 读 缓存 。 


4.1.6 ”对象 空 间 预 留 


部 署 企 VSAN 上 的 所 有 对 象 都 是 精简 置 备 的， 这 意味 看 虚 拟 机 部 署 的 时 候 不 会 预 留任 何 空间 ， 只 有 当 虚 拟 机 使 用 存储 时 空间 
才 被 占用 。 对 象 空间 预 留 功能 定义 了 虚拟 机 存储 对 象 在 切 始 化 的 时 候 可 能 预 留 的 逻辑 空间 的 百分比 ， 它 是 预 留 的 空间 数量 占 忌 对 
象 地 址 空间 的 一 个 百分比 。 这 个 属性 用 来 定义 一 个 厚 置 备 的 存储 对 象 。 当 对 象 空间 了 预 留 值 设 为 100% 时 ， 虚 拟 机 存储 对 容量 的 要 
求 都 会 被 预 先 保 留 ( 厚 置 备 ) 。 这 是 厚 置 备 延迟 置 零 (Lazy Zeroed Thick, LZT) 格式 的 ， 而 不 是 厚 置 备 置 零 (Eager Zeroed 
Thick, EZT) 格式 的 。LZT 和 EZT 的 区 别 在 于 EZT 的 虚拟 磁盘 在 创建 的 时 候 束 被 置 零 而 LZT 虚 拟 磁 盘 仪 仅 在 第 一 次 写 的 时 候 才 置 


T o 


在 VSAN 和 群集 上 局 用 去 重 和 压缩 时 ， 有 一 个 关于 对 象 空间 预 留 的 特殊 情况 需要 引起 读者 注意 。 当 局 用 去 重 和 压缩 时 ， 任 何 想 


要 在 策略 中 使 用 对 象 空间 预 留 的 对 象 ， 必 须 将 其 设置 成 0% (不 预 留 空间 ) 或 100% (全 部 预 留 ) ，1%~99% 之 间 的 值 都 是 不 允 
许 的 。 所 有 空间 对 象 预 留 值 已 经 设置 成 1%~99% 之 间 的 现 有 对 象 在 群集 局 用 去 重 和 压缩 之 前 ， 必 须 先 将 其 重新 配置 为 0% 或 
100%。 


4.1.7 ”强制 置 备 


如 果 这 个 参数 被 设 成 一 个 非 零 值 ， 那 么 即便 数据 存储 不 满足 虚拟 机 存储 策略 里 面 的 设 定 ， 对 象 也 会 被 置 备 。 在 vSphere 客 户 
映 中 ， 虚 拟 机 Summary (摘要 ) 页 和 相关 的 虚拟 机 存储 策略 视图 中 ， 这 台 虚 拟 机 会 被 显示 成 不 合 规 。 如 果 群 集中 没有 足够 的 空 
间 来 满足 即使 是 一 个 副本 的 预 留 要 求 ， 即 便 司 用 了 强制 置 备 ， 置 备 还 是 会 失败 。 当 群集 具有 额外 的 资源 时 ，VSAN 会 将 此 对 和 象 置 
为 合 规 状 态 。 关 于 强制 置 备 有 一 个 不 太 好 理解 的 地 万 是 ， 如 果 某 个 策略 不 能 满足 ， 它 会 试图 把 要 求 降低 到 非常 简单 的 地 步 : 把 允 
诈 的 故障 数 降 到 0， 把 每 个 对 象 的 磁盘 市 数 降 到 1， 并 把 内 存 读 取 绥 存 预 留 设 为 0 (在 混合 配置 时 ) 。 这 意味 着 VSAN 将 试图 创建 
一 个 单一 数据 副本 的 对 象 。 对 象 空间 预 留 的 策略 设置 仍然 有 效 。 而 且 ， 在 VSAN 试 图 放置 一 个 对 象 的 时 候 ， 也 不 存在 功能 逐渐 淹 
弱 的 情况 。 例 如 ， 一 个 策略 包含 了 人 允许 的 故障 数 =2，VSAN 在 试图 放置 一 个 对 象 时 ， 不 会 先 用 FTT=1 来 尝试 一 下 ， 而 是 直接 实 
施 FTT=0。 


类 似 地 ， 如 果 要 求 是 允许 的 故障 数 =1 且 每 个 对 象 的 磁盘 市 数 =4， 但 是 VSAN 没 有 足够 的 容量 设备 来 满足 每 个 对 象 的 磁盘 市 
数 =4， 那 么 它 会 直接 将 配置 降低 到 允许 的 故障 数 =0 且 每 个 对 象 的 磁盘 市 数 =1， 即 使 允许 的 故障 数 =1 且 每 个 对 象 的 磁盘 市 数 =2 
或 者 3 的 时 候 有 可 能 成 功 实施 。 


实施 这 个 策略 应 该 特别 小 心 ， 因 为 这 可 能 使 得 部 署 的 虚拟 机 失去 保护 ， 将 虚拟 机 及 其 数据 置 于 危险 的 境地 。 


使 用 这 个 选项 来 强制 置 备 虚拟 机 的 管理 员 也 需要 知晓 ， 尽 省 虚拟 机 可 能 以 只 有 一 个 副本 的 方式 被 置 备 出 来 (可 能 是 因为 缺少 
空间 ) ， 一 旦 群集 中 额外 的 资源 变 得 可 用 ，VSAN 可 能 会 马上 消耗 掉 这 些 资 源 来 满足 虚拟 机 的 策略 设置 。 


使 用 强制 置 备 的 一 些 常见 案例 是 : a) 在 实施 一 个 VSAN 管 理 群 集 时 ， 往 往 从 单个 节点 开始 ， 这 个 节点 将 首先 置 备 一 个 
vCenter Server 虚 拟 机 ， 用 来 配置 更 大 的 VSAN 群 集 ; b) 发 生 在 群集 置 于 维护 状态 时 仍 允 许 置 备 虚 拟 机 /虚拟 桌面 ， 例 如 运行 在 
VSAN 上 的 虚拟 桌面 基础 架构 (VDI) 。 


记 住 ， 这 个 参数 只 能 在 有 绝对 必要 时 作为 例外 情况 使 用 。 如 果 将 其 作为 默认 情况 使 用 ， 将 把 虚拟 机 及 其 关联 的 所 有 数据 置 于 
危险 之 地 。 请 愤 用 | 


4.1.8 ”禁用 对 象 校 验 和 


这 个 新 功能 是 VSAN 6.2 市 来 的 。 它 是 默认 启用 的 ， 用 来 寻找 数据 损坏 (位 衰减 ) ， 如 果 找 到 则 自动 修复 之 。 校 验 和 是 在 完 
整 的 MO 路 径 上 进行 验证 的 ， 这 和 意味 着 写 入 数据 时 ， 校 验 和 会 被 上 自动 计算 并 仓储 起 来 。 在 读 取 时 ， 数 据 的 校 验 和 会 被 验证 ， 如 果 
存在 不 匹配 情况 ， 数 据 就 需要 修复 。VSAN 6.2 还 包含 一 个 scrubber 机 制 ， 这 个 机 制 被 配置 为 每 年 运行 一 次 (默认 情况 下 ) ， 用 
来 检查 VSAN 数 据 存储 中 的 所 有 数据 。 不 过 这 个 值 可 以 通过 高 级 主机 设置 来 更 改 。 我 们 建议 保留 默认 值 为 一 年 一 次 。 某 些 情况 
下 ， 你 可 能 因为 性 能 的 关系 希望 完全 禁用 校 验 和 功能 。 尽 管 它 的 开销 几乎 可 以 忽略 而 且 大 多 数 客户 更 倾向 于 数据 完整 性 而 不 是 提 
高 1%~3% 的 性 能 。 不 过 在 某 些 场 合 下 ， 还 是 可 能 希望 增强 性 能 的 。 另 一 个 禁用 校 验 和 的 原因 是 当 应 用 程序 已 经 拥有 某 种 校 验 和 
机 制 的 时 候 获 知 工作 负载 不 需要 校 验 和 。 这 种 情况 下 ， 可 以 通过 把 “disable object checksum capability" (禁用 对 象 校 验 


和 ) 设置 成 Yes 来 禁用 掉 校 验 和 功能 。 


现在 我 们 完成 了 所 有 功能 概 响 。 让 我 们 来 看 一 看 基于 策略 的 存储 管理 机 制 的 其 他 一 些 方 面 吧 ，。 


4.2 VASA 供 应 两 提 供 程 友 


作为 VSAN 群 集 创建 步骤 的 一 部 分 ， 每 台 ESXi 主 机 都 要 在 vCenter 上 注册 一 个 VSAN 存 储 提供 程序 (Storage Provider) 。 
它 利 用 了 VASA 和 存储 感知 的 vSphere API (vSphere API for Storage Awarehess) 将 VSAN 的 功能 展现 在 vCenter Server 界 面 
上 ， 并 且 利 用 这 些 功能 构建 出 虚拟 机 存储 策略 ， 最 终 用 于 在 VSAN 数 据 存储 上 部 署 虚拟 机 。 如 果 你 熟悉 VASA 并 且 在 传统 的 存储 
环境 上 用 过 的 话 ， 你 会 友 现 这 些 功能 很 眼熟 。 不 过 传统 存储 环境 要 使 用 VASA 功 能 ， 需 要 对 特定 的 存储 进行 一 些 额外 的 配置 来 流 
加 存储 提供 程序 。 而 对 于 VSAN 来 说 ，vSphere 管 理 员 不 需要 担心 存储 提供 程序 ， 因 为 它们 在 VSAN 群 集 创建 时 已 经 自动 注册 好 
Ja 


4.2.1 VASAT 


VASA 人 允许 存储 供应 商 把 它们 存储 的 功能 发 布 到 vCenter Server 并 在 vSphere Web 客 户 端 中 显示 出 来 。VASA 还 可 以 提供 诸 
如 存储 健康 状态 、 配 置信 息 、 容 量 以 及 精简 置 备 情况 等 信息 ， 使 VMware 得 以 感知 人 存储 内 部 的 运行 状况 。 以 前 ，VASA 和 传统 存 
储 是 这 样 工作 的 : 存储 阵列 将 其 功能 告知 给 VASA 存 储 提供 程序 ， 然 后 存储 提供 程序 再 通知 vCenter Server， 最 后 用 户 就 可 以 在 
vSphere Web 客 户 疾 上 看 见 存 储 阵 列 的 这 些 功能 。 通 过 虚拟 机 存储 策略 ， 这 些 存储 的 功能 得 以 浮现 在 vSphere Web Prim; 
面 上 ， 帮 助 管理 员 从 空间 、 性 能 和 服务 水 平 协议 (SLA) 等 方面 来 选择 正确 的 存储 。 对 于 传统 存储 阵列 是 这 样 的 ， 现 在 对 于 
VSAN 也 是 。 在 虚拟 卷 (VVols) 发 布 之 前 ， 在 使 用 VASA 和 虚拟 机 存储 策略 的 流程 上 ， 传 统 存储 和 VSAN 还 是 有 一 个 显著 的 区 
别 : 对 于 传统 存储 ，VASA 只 是 把 数据 存储 的 功能 展现 出 来 ，vSphere 管 理 员 还 是 必须 自己 选择 合适 的 存储 来 放置 虚拟 机 ; 而 对 
于 VSAN 以 及 现在 的 VVols， 你 在 虚拟 机 存储 策略 中 定义 好 虚拟 机 存储 所 需要 的 那些 功能 ， 随 后 这 个 策略 被 推送 给 存储 层 ， 通 知 
它 这 就 是 对 存储 的 要 求 。 然 后 VASA 会 告诉 你 底层 存储 (如 VSAN) 是 否 能 满足 这 些 要 求 ， 它 针对 每 个 存储 对 象 ， 有 效 地 传递 合 
规 性 信息 。 主 要 区 别 在 于 现在 此 功能 是 双向 模式 的 ， 而 以 前 VASA 只 是 提供 功能 信息 ( 单 向 的 ) ， 现 在 它 不 仅 展现 功能 信息 ， 还 
验证 虚拟 机 的 要 求 是 否 根 据 策 略 的 内 容 被 满足 了 。 


4.2.2 ”存储 提供 程序 


存储 提供 程序 看 上 去 是 什么 样 的 ? 请 看 图 4-6。 当 一 个 VSAN 群 集 被 创建 时 ， 群 集中 每 台 ESXi 主 机 就 会 在 vCenter Server E 
注册 VASA 和 存储 提供 程序 。 在 一 个 4 节点 的 VSAN 和 群集 上 的 VASA VSAN 存 储 提 供 程 序 配置 束 类 似 如 此 。 


vcsa-05.rainpole.com Actions v 


Getting Stated Summary Monitor | Manage | Related Objects 








| Settings Scheduled Tasks | Alarm Definitions | Tags | Permissions | Sessions | Storage Providers | 


Storage Providers 





+ B x 


Storage Provider Storage System 1 vy Status Active/Standby 





Group by: | Storage provider | X | Q Filter 
URL Last Rescan Time — VASA API Version | Certificate Expiry 


v VSAN Provider esxi-d-scnd ra... Online 一 https //esxi-d-scnd.rainpole.com.. | 12/10/2015 3... | 15 1821 days 


vsanDatastore (3/3 online) Active 
v VSAN Provider esxi-c-scnd.rai,, XOnline 一 https;//esxi-c-scnd.rainpole.com... 5 1821 days 
vsanDatastore (3/3 online) Standby 
~ VSAN Provider esxi-b-prefrai.. Online - 


vsanDatastore (3/3 online) Standby 


https-/lesxi-b-pref.rainpole.com.... 1821 days 


Storage Provider Details 


General 
Supported vendor IDs 
Provider name VSAN Provider esxi-b-pref.rainpole.com 
Certificate info 
Provider status Online 
Active/standby status 
Activation Automatic 
URL https-//esxi-b-pref.rainpole.com:8080/version.xml 
Provider version 1.0 
VASA API version 1.5 


Default namespace VSAN 





图 4-6 VSAN 群 集 被 创建 时 添加 的 VSAN 存 储 提供 程序 


要 查看 存储 提供 程序 的 状态 ， 打 开 Web 客 户 端 ， 导 航 到 vCenter Server 清 单 ， 选 择 Manage (管理 ) 标签 页 ， 然 后 选择 
Storage Provider (存储 提供 程序 ) 视图 。 应 该 总 是 有 一 个 VSAN Provider 处 于 联机 状态 ， 其 他 存储 提供 程序 应 该 处 于 备用 状 
态 。 这 都 由 VSAN 自 动 完 成 ， 通 常 不 需要 管理 员 对 VASA 提 供 程序 进行 管理 。 


在 超过 8 台 ESXi 主 机 的 VSAN 群 集中 ， 用 户 界 面 中 就 会 有 超过 8 个 VASA 和 存储 提供 程序 。 为 了 显示 更 清晰 ， 列 表 会 被 缩短 到 只 
显示 8 个 存储 提供 程序 。 备 用 存储 提供 程序 的 数量 仍然 会 正确 显示 ， 只 是 你 不 能 对 它们 进行 查询 。 


4.3 ”VSAN 和 存储 提供 程序 : 高 可 用 


你 可 能 会 问 为 什么 每 合 ESXi 主 机 都 要 注册 存储 提供 程序 ， 原 因 是 高 可 用 性 。 如 果 一 台 ESXi 主 机 友 生 故障 ， 群 集中 的 另 一 全 
ESXi 主 机 可 以 接管 这 些 VSAN 功 能 友 布 的 任务 。 如 果 表 回头 看 一 下 图 4-6 所 示 的 存储 提供 程序 ， 你 会 友 现 仅 有 一 个 VSAN 提 供 程 
序 是 联机 (online) BJ, 来自 这 个 3 市 点 群集 中 其 他 2 人 台 ESXi 主 机 的 存储 提供 程序 都 处 于 备用 (standby) 状态 。 如 果 当 前 联机 的 
仓储 提供 程序 把 线 或 出 现 故 障 ， 不 管 这 是 什么 原因 造成 的 〈 多 半 是 因为 主机 故障 ) ， 备 用 提供 程序 中 的 一 个 会 被 提升 为 活动 


(active) 状态 。 


对 于 vSphere 管 理 员 创 建 VSAN 群 集 的 任务 来 说 ， 基 本 上 不 需要 对 存储 提供 程序 进行 什么 操作 ， 这 里 只 是 给 你 提供 一 个 参 
考 。 然 而 ， 如 果真 的 遇 到 了 VSAN 的 功能 无 法 在 虚拟 机 存储 策略 上 显示 出 来 的 问题 ， 那 就 有 必要 到 这 个 配置 页 来 看 一 看 ， 确 认 一 
下 至 少 有 一 个 存储 提供 程序 是 活动 的 。 如 果 不 存 在 活动 的 存储 提供 程序 ， 那 么 在 试图 创建 一 个 虚拟 机 存储 策略 的 时 候 ， 你 就 无 法 
发 现任 何 VSAN 功 能 。 此 时 ， 作 为 排 错 的 一 个 步骤， 你 可 以 考虑 点 击 存储 提供 程序 页 面 上 的 刷新 图 标 (楼 色 环 状 季 头 C) 来 刷 
新 一 下 存储 提供 程序 。 


应 该 注意 的 是 ，VASA 仔 储 提 供 程 序 完 全 不 参与 VAN 的 数据 传输 路 径 。 如 果 人 存储 提供 程序 友 生 了 故障 ， 完 全 不 会 影响 运行 


在 VSAN 数 据 仔 储 上 的 虚拟 机 。 失 去 仓储 提供 程序 的 影响 仅仅 是 丢失 了 对 相 天 功能 的 可 见 性 ， 所 以 你 将 无 法 再 创建 新 的 存储 禹 
略 。 然 而 已 经 在 运行 的 虚拟 机 和 策略 则 不 受 影 响 。 


4.3.1 ”实时 变更 虚拟 机 仓储 案 略 


可 以 实时 变更 虚拟 机 存储 策略 是 VSAN 相 当 独 特 的 地 方 。 我 们 会 用 一 个 例子 来 解释 这 个 概念 ， 包 括 如 何 实 时 变更 虚拟 机 存储 
策略 ,以 及 它 如 何在 不 影响 虚拟 机 上 的 应 用 程序 或 客 尸 操 作 系统 的 情况 下 变更 虚拟 机 的 布局 。 


考虑 下 面 的 场景 ， 这 在 介绍 条 带宽 度 时 简单 提 到 过 : 一 个 vSphere 管 理 员 已 经 在 混合 配置 的 VSAN 上 通过 默认 的 虚拟 机 存储 
策略 部 署 了 一 台 虚 拟 机 ， 在 默认 的 策略 中 虚拟 机 存储 对 象 不 实行 磁盘 条 市 化 并 能 容忍 一 个 故障 。 虚 拟 磁 盘 文 件 的 布局 看 上 去 如 图 
4-7 所 示 。 


这 台 虚 拟 机 和 其 上 的 应 用 程序 开始 时 表现 不 应 ， 运 行 得 很 令 人 满意 ， 读 组 站 命 中 率 达 到 了 100%。 然 而 ， 随 着 时 间 的 推移 ， 
加 入 到 VSAN 群 集 的 虚拟 机 数量 越 来 越 多 。vSphere 管 理 员 开始 注意 到 部 署 在 VSAN 上 的 虚拟 机 现在 只 能 达到 90% 的 读 缓冲 命 
率 了 。 这 意味 着 10% 的 读 操 作 需 要 由 容量 层 中 的 磁盘 来 提供 服务 。 在 峰值 时 这 台 虚 拟 机 每 秒 有 2000 次 读 操 作 ， 因 此 有 200 次 读 取 
需要 由 磁盘 来 提供 服务 〈 融 是 缓冲 没有 命中 的 10% 读 取 ) 。 磁 盘 的 性 能 为 每 块 磁盘 1250IOP3， 这 意味 着 单 块 磁盘 无 法 满足 额外 的 
200IOPS。 为 了 满足 虚拟 机 对 MO 的 要 求 ，vSphere 管 理 员 做 出 了 正确 的 决定 : 创建 一 个 跨 2 块 磁盘 的 RAID-0 条 市 。 


esx1-03 





VSAN 网 络 





图 4-7 ”允许 的 故障 数 =1 时 的 VSAN 策 略 


在 VSAN 上 ，vSphere 管 理 员 有 2 个 选择 来 实现 之 。 


第 一 个 选择 是 ,简单 地 修改 现 有 的 关联 到 这 台 虚 拟 机 的 虚拟 机 存储 策略 ， 添 加 一 个 条 市 守 度 的 要 求 。 然 而 ， 这 个 方法 会 更 改 
所 有 使 用 这 个 策略 的 虚拟 机 的 存储 布局 。 


男 一 个 方法 是 ,创建 一 个 全 新 的 策略 ， 这 个 策略 和 之 前 的 策略 完全 一 样 ， 只 是 额外 再 多 加 一 个 条 珊 客 度 的 功能 。 然 后 将 这 个 
新 策略 附加 到 受 组 ,中 无 法 命中 困扰 的 虚拟 机 (VMDK) 上 。 当 这 个 新 策略 关联 上 了 虚拟 机 ， 管 理 员 可 以 促 友 一 次 新 的 / 更 新 
过 的 策略 与 虚拟 机 的 同步 。 这 可 以 号 上 执行 ， 也 可 以 根据 需要 推迟 到 维护 窗口 来 执行 。 如 果 被 推迟 执行 ， 虚 拟 机 会 被 显示 为 和 新 
策略 不 合 规 (noncompliant) 。 当 策略 变更 执行 时 ，VSAN 会 负责 更 改 底层 的 虚拟 机 存储 布局 使 之 满足 新 策略 的 要 求 ， 而 更 改 
的 同时 虚拟 机 仍 在 运行 且 不 会 失去 任何 故障 保护 。 实 现 的 万 法 是 把 新 的 存储 对 象 及 其 额外 组 件 (在 这 个 例子 中 指 RAID-0 条 囊 ) 
和 原先 的 对 象 做 镜像 。 


如 你 所 见 ， 更 改 虚 拟 机 存储 策略 的 万 法 有 两 种 : 要 么 是 编辑 现 有 的 虚拟 机 存储 策略 并 加 入 条 市 宽度 等 于 2 的 新 功能 ， 要 么 是 
创建 一 个 全 新 的 虚拟 机 存储 策略 并 包括 允许 的 故障 数 =1 和 条 市 范 度 =2 这 2 个 参数 。 你 可 能 更 希望 使 用 后 者 ， 因 为 最 初 的 策略 可 
能 会 有 其 他 虚拟 机 在 使 用 ， 编 辑 那 个 策略 会 影响 所 有 使 用 它 的 虚拟 机 。 当 新 策略 创建 出 来 时 ， 它 可 以 同 此 虚拟 机 及 其 存储 对 象 相 
关联 ， 这 在 Web 客 尸 端 中 有 很 多 方法 来 实现 。 事 实 上 ， 如 果 必 要 的 话 可 以 在 每 一 个 虚拟 机 存储 对 象 ( 如 VMDK) 的 粒度 上 来 更 


变更 完成 后 ， 代 表 新 配置 的 新 组 件 (例如 RAID-0 条 市 ) 将 进入 重新 配置 的 状态 。 这 在 保持 原 有 副本 或 组 件 的 同时 ， 会 临时 
构建 一 个 额外 的 副本 或 组 件 ， 所 以 VSAN 数 据 仔 储 上 必须 有 额外 的 空间 来 承载 这 种 实时 变更 。 当 新 副本 或 组 件 准备 完毕 ， 新 的 配 
置 也 完成 之 后 ， 原 有 副本 或 组 件 将 航 寺 并。 


注意 ， 不 是 所 有 的 策略 变更 都 需要 创建 新 的 副本 或 组 件 。 例 如 ， 增 加 IOPs 限 制 ， 或 减少 允许 的 故障 数 ， 又 或 是 缩减 空间 预 
留 都 无 需 这 么 做 。 不 过 ,很 多 情况 下 ， 策 略 变 更 会 触 友 新 副本 或 组 件 的 创建 。 


现在 虚拟 机 存储 对 象 可 以 反映 出 Web 客 尸 端 中 的 变更 了 一 一 例如 ， 同 时 具备 RAID-0 条 市 和 RAID-1 副 本 配置 的 存储 对 铺 如 
图 4-8 所 示 。 





esxi-03 


VSAN 网 络 


图 4-8 VSANRAID-0 和 RAID-1 配 置 


作为 对 比 ， 让 我 们 看 看 很 多 传统 存储 阵列 上 要 实现 同样 的 目的 所 需 进行 哪些 操作 。 这 至 少 包 括 以 下 这 些 步骤 : 
从 原 有 数据 存储 迁移 虚拟 机 

- 删除 所 涉及 的 LUN 或 卷 

创建 一 个 满足 新 的 存储 要 求 的 新 的 LUN (不 同 的 RAID 等 级 ) 

: 对 于 块 存储 来 说 ， 还 可 能 需要 重新 以 VMFS 格 式 来 格式 化 LUN 

- 最 后 ， 你 必须 将 虚拟 机 迁移 回 新 的 数据 存储 


在 新 的 存储 副本 或 组 件 创 建 好 并 同步 完成 后 ， 旧 的 仓储 副本 或 组 件 将 目 动 铸 移 除 。 注 意 ， 在 需要 的 时 候 VSAN 的 条 市 化 可 以 
跨 磁盘 、 磁 盘 组 和 主机 ， 例 如 在 图 4-8 所 描绘 的 例子 中 ， 条 带 S1a 和 S1b 位 于 同一 台 主 机 上 ， 但 是 条 带 S2a 和 S2b 位 于 不 同 的 主机 
上 。 还 应 该 注意 ，VSAN 可 以 无 须 在 主机 之 间 移 动 数 据 的 情况 下 创建 新 的 副本 或 组 件 ， 很 多 情况 下 ， 新 的 组 件 可 以 在 同一 从 主机 
的 同一 个 存储 上 被 实例 化 。 


我 们 还 未 曾 提 及 的 是 ， 这 样 的 配置 更 改 当 然 有 可 能 产生 额外 的 见证 对 象 。 一 台 虚 拟 机 要 能 持续 地 访问 其 所 有 组 件 ， 其 数据 必 
须 有 一 个 完整 的 副本 可 用 ， 且 群集 中 那个 对 象 还 必须 有 超过 50% 的 组 件 (投票 ) 可 用 。 因 此 ， 对 虚拟 机 存储 策略 的 变更 会 导致 额 
外 的 见证 组 件 被 创建 出 来 ,或 是 (诚然 的 确 是 这 样 ) 在 一 个 策略 削减 要 求 的 时 候 ， 可 能 会 导致 见证 的 减少 。 


通过 下 面 的 过 程 ， 你 实际 上 可 以 在 vSphere 用 尸 界面 中 看 见 配 置 变 更 的 友 生 过 程 。 选 择 要 变更 的 虚拟 机 ， 点 击 


Manager (管理 ) 标签 ， 然 后 选择 VM Storage Policies (虚拟 机 存储 策略 ) 视图 ， 如 图 4-9 所 示 。 尽 管 这 个 视图 没有 显示 所 有 
的 虚拟 机 存储 对 象 ， 它 确实 已 经 显示 了 VM Home (虚拟 机 主页 ) 名 字 空 间 ， 并 且 可 以 看 见 VMDK。 
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图 4-9 在 vSphete Web 客 户 端 的 虚拟 机 存储 策略 视图 中 显示 组 件 的 重新 配置 


在 VSAN 6.0 中 还 有 一 个 检查 所 有 正在 重新 同步 的 组 件 的 方法 。 在 vCenter inventory (清单 ) 中 选择 VSAN 群 集 对 象 ， 然 后 
选择 monitor (监控 ) 、Virtual SAN， 最 后 在 菜单 中 选择 resyncing components (重新 同步 组 件 ) 。 这 将 显示 所 有 正在 重新 
同步 


或 重建 的 组 件 。 图 4-10 显 示 了 重新 同步 的 仪表 盘 视图 ， 尽 管 此 时 并 没有 久生 任何 重新 同步 活动 。 
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KJ4-10 vSphere Web 客 户 端 中 的 重新 同步 活动 


4.3.2 对象、 组 件 和 见证 


到 目前 为 止 ， 本 章 已 经 介绍 了 很 多 新 概念 ， 包 括 一 些 新 的 术语 。 第 ? 章 中 ， 还 将 履 兰 很 多 更 深入 的 内 容 ， 包 括 对 象 、 组 件 ， 
当然 还 要 介绍 见证 磁盘 ， 包 括 在 虚拟 机 存储 策略 中 一 些 特别 功能 是 如 何 影响 虚拟 机 存储 对 象 的 。 现 在 只 需要 理解 对 于 VSAN, 一 
台 庶 拟 机 不 再 是 一 组 文件 的 集合 ， 而 是 一 组 存储 对 象 的 集合 即 可 。VSAN 有 五 种 类 型 的 存储 对 象 : 


` 虚拟 机 主页 名 字 空 间 (VM Home namespace) 
- EWA (VMDK) 

` 虚拟 机 交换 文件 (VM swap) 

` 快照 增 量 盘 (Snapshot delta disk) 

` 快照 内 存 (Snapshot memory) 


尽管 在 vSphere Web 客 户 端 中 仪 显示 虚拟 机 主页 名 字 空 间 和 VMDK (硬盘 ) (虚拟 机 一 监控 一 策略 一 物理 硬盘 放置 ) ， 以 
及 快照 增 量 和 虚拟 机 交换 文件 (群集 一 上 监控 一 Virtual SAN 一 虚拟 磁盘 视图 ) ， 我 们 还 将 在 第 10 章 介绍 VSAN 各 种 可 用 的 不 同 监 
控 工 具 时 ， 告 诉 你 如 何 查 看 所 有 存储 组 件 (特别 是 delta 和 虚拟 机 交换 文件 ) 各 种 细节 的 方法 。 


4.4 EWURE 


虚拟 机 存储 策略 和 vSphere 5.0 引 入 的 虚拟 机 配置 文件 的 工作 模式 一 模 一 样 ， 信 单 说 束 是 创建 一 个 策略 来 包含 虚拟 机 置 备 的 
要 求 。 与 原先 的 存储 配置 文件 特性 比较 起 来 ， 其 主要 的 区 别 在 于 存储 策略 是 如 何 起 作用 的 。 束 存 储 配 置 文件 来 说， 只 需要 在 置 备 
虚拟 机 的 时 候 简 单 地 使 用 策略 中 的 要 求 来 选择 合适 的 数据 存储 即 可 。 然 而 就 仓储 策略 而 言 ， 束 个 仅 仪 是 选择 合适 的 数据 存储 这 人 么 
人 简单， 还 要 求 通知 底下 的 存储 层 关 于 这 全 虚拟 机 特定 的 可 用 性 和 性 能 的 要 求 。 所 以 即使 VSAN 数 据 存 储 是 目的 存储 ,如果 虚拟 机 
是 通过 虚拟 机 存储 策略 置 备 的 ， 策 略 中 的 设置 可 能 会 引 友 额外 的 要 求 。 例 如 可 能 的 陈述 是 这 样 的 : 这 全 虚拟 机 具有 为 保证 可 用 性 
需要 多 个 虚拟 机 文件 的 副本 的 要 求 、 为 保证 高 性 能 对 条 市 宽度 和 读 缓冲 的 要 求 ， 以 及 精简 置 备 的 要 求 。 


虚拟 机 存储 策略 既 保存 在 VSAN 中 ， 也 保存 在 vCenter 的 清单 数据 库 中 。 每 个 对 象 都 将 其 策略 保存 在 其 自己 的 元 数据 中 ， 这 
意味 着 vCenter 并 不 是 部 署 虚拟 机 存储 策略 的 必要 条 件 ， 因 此 即使 由 于 某 些 原因 vCenter Server 不 可 访问 ， 策 略 仍然 可 以 继续 起 
作用 。 


4.4.1 ”局 用 虚拟 机 和 存储 策略 


在 VSAN 的 最 初 友 布 版 本 中 ， 虚 拟 机 存储 策略 是 可 以 通过 用 尸 界 面 被 启用 或 禁用 的 。 这 个 选项 在 后 续 的 版 本 中 取消 了 。 不 
过 ， 在 VSAN 在 群集 中 被 局 用 时 ， 虚 拟 机 存储 策略 会 目 动 被 局 用 。 尽 管 虚拟 机 存储 策略 通常 仪 仅 在 特定 的 vSphere 版 本 中 可 用 ， 
通过 加 载 VSAN 许 可 证 也 同样 可 以 提供 此 功能 。 


4.4.2 ”创建 虚拟 机 存储 策略 


vSphere 管 理 员 有 能 力 创建 多 个 策略 。 前 面 我 们 曾经 提 过 ， 很 多 关于 可 用 性 和 性 能 的 VSAN 功 能 都 是 通过 VASA 展 现 出 来 
的 ， 在 这 里 管理 员 必 须 决定 虚拟 机 中 运行 的 应 用 程序 到 底 对 性 能 和 可 用 性 有 什么 要 求 。 例 如 ， 管 理 员 要 求 这 个 虚拟 机 在 保持 运行 
时 能 容忍 多 少 个 组 件 (主机 、 网 络 和 磁盘 ) 友 生 故障 ? 又 比如 运行 在 虚拟 机 中 的 应 用 程序 对 IOPS 的 要 求 高 不 高 ? 如 果 高 的 话 ， 
应 该 给 这 台 虚 拟 机 提供 多 少 读 缓 存 才 是 合适 的 ， 才 能 满足 对 性 能 的 要 求 ? 其 他 考量 因素 还 包括 对 这 台 虚 拟 机 应 该 及 用 精简 置 备 还 
ESAR? 是 否 希 望 用 RAID-5 或 RAID-6 配 置 来 节省 空间 ? 是 否 应 该 禁用 校 验 和 ? 或 者 是 否 应 该 对 某 一 特定 虚拟 机 设置 IOPS 限 
制 以 避免 “ 吵 | 用 的 邻居 ”的 情况 友 生 ? 


75 
US 
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另 一 个 值得 注意 的 地 方 是 ，vSphere 5.5 还 支持 使 用 标记 来 进行 置 备 。 因 此 ， 除 了 使 用 VSAN 数 据 存储 的 功能 来 创建 虚拟 机 
存储 策略 以 满足 要 求 外 ， 还 可 以 创建 基于 标记 的 策略 。 使 用 基于 标记 的 策略 超出 了 本 书 讨论 的 范畴 ， 但 是 你 或 许可 以 从 vSphere 
人 存储 的 文档 集中 找到 更 进一步 的 信息 。 


44.3. ”在 虚拟 机 置 备 时 分 配 虚 拟 机 存储 策略 


虚拟 机 存储 策略 的 分 配 是 在 虚拟 机 置 备 过 程 中 完成 的 。 在 vSphere 管 理 员 选择 目的 数据 存储 时 ， 他 必须 从 可 用 的 虚拟 机 存储 
策略 下 拉 菜 单 中 选择 合适 的 策略 。 随 后 数据 存储 会 被 分 成 兼容 和 不 兼容 数据 存储 两 类 ， 从 而 得 以 i 上 vSphere 管 理 员 为 虚拟 机 放置 
做 出 合适 且 正 确 的 选择 。 


匹配 数据 存储 并 不 意味 着 数据 存储 必须 满足 虚拟 机 存储 策略 的 要 求 ， 这 只 是 意味 着 数据 存储 了 解 了 这 一 组 要 求 已 经 置 于 策略 
之 中 。 如 果 没 有 足够 的 资源 来 满足 策略 的 要 求 ， 虚 拟 机 的 置 备 仍然 有 可 能 会 失败 。 不 过 如 果 策 略 无 法 被 满足 ， 屏 幕 下 方 的 兼容 性 


部 分 就 会 显示 一 个 警示 消息 ， 称 策略 可 能 无 法 被 满足 。 


这 个 3 节点 群集 的 例子 中 显示 了 一 个 包含 允许 的 故障 数 等 于 2 的 策略 。3 节 点 的 群集 无 法 满足 这 个 策略 的 要 求 ， 但 是 当 策 略 最 
初创 建 的 时 候 ，VSAN 数 据 存 储 会 显示 为 一 个 可 匹配 的 资源 因为 它 理 解 策略 的 内 容 ， 不 过 ， 在 试图 使 用 这 个 策略 置 备 虚 拟 机 
时 ，VSAN 数 据 和 存储 会 显示 为 不 合 规 的 ， 如 图 4-11 所 示 。 
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图 4-11 当 策 略 不 被 满足 时 ，VSAN 数 据 存 储 显 示 为 不 合 规 


这 是 一 个 值得 记 住 的 重点 : 仪 仪 因为 VSAN 告 诉 你 某 个 特定 的 策略 在 创建 时 是 兼容 的 ， 绝 对 不 意味 着 你 可 以 用 这 个 策略 成 功 
部 署 一 台 虚 拟 机 。 


45 人 小结 


你 以 前 可 能 已 经 用 过 虚拟 机 存储 配置 文件 。 虚 拟 机 存储 策略 与 之 有 着 显 闭 的 区 别 。 尽 管 我 们 仍然 使 用 VASA 一 一 存储 感知 的 
vSphere APl， 虚 拟 机 存储 策略 使 我 们 可 以 把 存储 特性 从 数据 存储 转 到 虚拟 机 上 。 虚 拟 机 (或 者 更 进一步 来 说 运行 在 虚拟 机 上 的 
应 用 程序 ) 现在 可 以 提出 它们 目 己 特定 的 策略 需求 ， 这 包含 底层 存储 关于 性 能 、 可 靠 性 和 可 用 性 的 能 力 。 


本 章 讲述 了 Virtual SAN 底 层 的 架构 细节 。 我 们 已 经 提起 过 不 少 VSAN 架 构 的 内 容 ， 包 括 使 用 闪存 作为 |/O 的 缓存 、 将 VSAN 
功能 展现 出 来 的 VASA 角 色 、 虚 拟 机 存储 策略 、 见 证 盘 以 及 对 于 直通 RAID 控 制 器 的 需求 等 。 
本 章 将 深入 探讨 这 些 特 性 ， 并 介绍 由 VSAN 引 入 的 一 些 新 的 以 构 概 念 和 术语 。 尽 管 大 多 数 vsphere 管 理 员 不 会 接触 这 些 搬 层 


的 结构 ， 但 是 对 组 成 VSAN 的 服务 具有 一 些 大 至 的 了 解 对 排 错 或 分 析 日 志文 件 还 是 有 用 的 。 在 探讨 这 些 底层 细节 之 前 ， 让 我 们 首 
先 来 介绍 VSAN 的 一 个 核心 概念 : 分 布 式 RAID。 


5.1 “分布 式 RAID 


VSAN 通 过 使 用 分 布 式 RAID (或 换 句 话说 ， 网 络 上 的 RAID) 为 虚拟 机 提供 高 可 用 性 和 最 佳 性 能 。 从 可 用 性 角度 来 说 ， 分 布 
陈 RAID 意 味 着 VSAN 环 境 可 以 容忍 一 台 或 多 台 ESXi 主 机 (或 主机 上 的 组 件 例如 磁盘 ) 故障 而 继续 为 其 上 所 有 的 虚拟 机 提供 其 全 
部 功能 。 而 为 了 确保 虚拟 机 性 能 最 佳 ，VSAN 分 布 式 RAID 提 供 了 将 虚拟 磁盘 散布 到 多 个 物理 磁盘 和 主机 上 去 的 能 力 。 


然而 ， 值 得 说 明 的 一 点 是 ， 通 过 使 用 存储 策略 ， 虚 拟 机 的 可 用 性 和 性 能 现在 可 以 针对 单 台 虚 拟 机 来 设置 ， 事 实 上 ， 更 精确 的 
襄 法 是 可 以 针对 单 块 虚 拟 磁盘 来 设置 。 管 理 员 可 以 通过 存储 策略 来 定义 VSAN 群 集中 的 一 台 虚 拟 机 可 以 容忍 多 少 主机 故障 或 者 多 
少 磁 盘 故 障 ， 并 可 以 定义 一 块 虚拟 磁盘 可 以 散布 到 多 少 主机 和 磁盘 上 。 如 果 通 过 把 允许 的 故障 数 设 为 0 来 特别 选择 不 在 存储 策略 
中 配置 可 用 性 要 求 ， 那 么 主机 或 磁盘 的 故障 残 肯定 会 影响 虚拟 机 的 可 用 性 。 


在 早期 的 友 布 版 本 中 ，VSAN 在 主机 之 间 只 使 用 RAID-1 (同步 镜像 ) 来 满足 对 系统 中 仓储 对 象 的 可 用 性 和 可 靠 性 的 要 求 。 
虚拟 机 存储 对 象 的 镜像 拷贝 (副本) 数量 取决 于 虚拟 机 存储 策略 特别 是 允许 的 故障 数 要 求 。 根 据 虚 拟 机 存储 策略 的 不 同 ， 一 块 虚 
拟 磁盘 最 多 可 在 一 个 VSAN 群 集 上 拥有 3 个 副本 。 默 认 情况 下 ，VSAN 总 是 会 在 部 署 虚 拟 机 的 时 候 将 允许 的 故障 数 设 置 为 1， 即 对 
每 个 部 署 在 VSAN 数 据 存储 上 的 虚拟 机 ， 其 虚拟 机 存储 对 象 都 有 一 个 副本 拷贝 ， 这 束 是 关联 在 VSAN 数 据 存 储 上 的 默认 策略 。 不 
过 这 可 以 在 虚拟 机 置 备 时 通过 选择 不 同 的 策略 来 改变 。 


VSAN 6.2 引 入 了 2 种 新 的 RAID 类 型 : 第 一 个 是 RAID-5， 第 二 个 是 RAID-6。 当 虚拟 机 存储 策略 中 的 容错 方法 (failure 
tolerance method) 设置 成 容量 而 不 是 默认 的 性 能 时 它们 才 会 被 创建 出 来 。 引 入 这 些 新 的 分 布 式 RAID 类 型 的 目的 是 为 了 节省 空 
间 使 用 。RAID-5 和 RAID-6 都 不 使 用 镜像 而 是 使 用 分 布 式 校 验 机 制 来 保护 数据 。 对 于 RAID-5， 数 据 分 布 在 3 台 ESXi 主 机 的 3 块 硬 
盘 上 ， 计 算出 来 的 校 验 数据 则 存放 在 第 4 台 ESXi 主 机 的 第 4 块 硬盘 上 。 校 验 数 据 并 不 总 是 存放 在 同一 台 主 机 的 同一 块 硬盘 上 ， 而 
是 分 布 式 的 ， 如 图 5-1 所 示 。 
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图 5-1 ”分布 式 校 验 的 RAID-5 部 署 


RAID-5 配 置 可 以 容忍 一 个 主机 故障 ，RAID-6 则 是 设计 用 来 容忍 两 个 主机 故障 的 。 在 RAID-6 配 置 中 ， 数 据 分 布 在 4 人 台 ESXi 主 
机 的 4 块 硬盘 上 ， 而 计算 出 来 的 校 验 数据 则 保存 在 另外 两 台 ESXi 主 机 上 的 另 两 块 硬盘 上 。 这 样 ， 如 果 你 想 要 使 用 RAID-6 配 置 的 
话 ， 总 共 需 要 6 台 ESXi 主 机 。 校 验 数据 还 是 分 布 式 存 放 的 ， 如 图 5-2 所 示 。 


可 以 节省 的 空间 计算 如 下 : 用 RAID-1 方 式 部 署 一 个 100GB 的 VMDK 对 象 来 容忍 一 个 故障 需要 在 VSAN 数 据 存储 上 消耗 总 共 


200GB 容 量 ; 用 RAID-5 方 式 会 消耗 133.33GB。 类 似 地 ， 如 果 用 RAID-1 方 式 部 署 一 个 100GB 的 VM DK 对 象 来 容忍 两 个 故障 ， 需 
要 在 VSAN 数 据 存储 上 消耗 总 共 300GB 的 容量 ; 用 RAID-6 方 式 则 消耗 总 共 150GB 容 量 。 


如 在 第 4 草 中 讨论 过 的 ， 管 理 员 现在 需要 在 性 能 和 容量 之 间 进 行 选择 。 如 果 性 能 是 管理 员 的 绝对 最 终 目标 ， 那 么 容错 万 法 应 
该 使 用 RAID-1 ( 仍 是 默认 值 ) 。 如 果 管 理 员 不 需要 性 能 最 好 ， 而 更 关心 容量 的 使 用 ， 那 么 容错 方法 或 许 应 该 选择 RAID-5/6。 
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图 5-2 ”分布 式 校 验 的 RAID-6 部 署 


根据 每 个 对 象 的 磁盘 市 数 的 拧 略 设置 ， 一 个 虚拟 磁盘 对 稼 可 能 会 被 条 市 化 到 很 多 物理 磁盘 上 来 达到 期 望 的 性 能 要 求 。 可 以 通 
过 RAID-0 增 强 虚 拟 机 存储 对 象 的 性 能 ， 不 过 条 市 配置 并 不 总 是 增强 性 能 的 必要 条 件 。 在 本 章 稍 后 我 们 将 解释 原因 ， 并 说 明 在 什 
么 时 候 在 虚拟 机 存储 策略 中 增加 VM DK 的 条 带宽 带 可 以 带 来 性 能 提升 。 


5.2 对象 和 组 件 


VSAN 数 据 仓 储 是 一 种 对 象 仔 悄 系统 ， 其 上 的 虚拟 机 是 由 大 量 不 同 的 存储 对 象 组 成 的 ， 而 不 像 过 去 的 虚拟 机 是 保存 在 LUN 或 
卷 上 的 一 组 文件 的 集合 。 这 对 于 vsphere 管 理 员 来 说 是 一 个 新 的 概念， 理解 这 一 点 很 重要 。 


到 目前 为 止 我 们 还 未 曾 详 述 对 象 和 组 件 。 所 以 ， 在 深入 不 同 对 象 的 各 种 细节 之 前 ， 让 我 们 先 从 VSAN 中 对 象 和 组 件 的 定义 及 
概念 讲 起 。 


对 象 指 的 是 一 个 位 于 VSAN 数 据 仔 储 中 的 独立 的 仓储 块 设备 ， 与 SC9I 语 义 兼 容 。 它 可 以 根据 需要 来 创建 ， 并 且 大 小 没有 限 
制 ， 不 过 在 VSAN 最 初 发 行 的 版 本 5.5 中 VMDK 的 大 小 上 限 是 2TB 减 512 字 节 。 从 VSAN 6.0 版 本 起 ，VMDK 现 在 最 大 可 达 62TB， 
和 VMFS 及 NFS 数 据 存 储 一 至。 对 象 现在 取代 LUN 成 了 VSAN 的 主要 存储 单元 。 在 VSAN 中 最 典型 的 存储 块 设备 就 是 独立 的 
VMDK、 虚 拟 机 主页 名 字 空 间 和 虚拟 机 交换 文件 。 当 然 ， 如 果 虚 拟 机 拍 过 快照 ， 则 还 会 创建 一 个 增 量 盘 对 象 。 如 果 快 照 包 含有 
虚拟 机 的 内 存 ， 这 也 会 被 实例 化 成 一 个 对 象 。 因 此 取决 于 快照 的 类 型 ， 一 个 快照 可 能 包含 1 个 或 2 个 对 象 。VSAN 中 的 每 个 “对 
象 ” 都 有 其 自己 的 RAID 树 ， 将 策略 要 求 映 射 成 物理 设备 上 实际 的 布局 。 如 果 你 在 部 署 虚拟 机 的 时 候选 择 了 某 一 个 虚拟 机 存储 策 
WS, 那么 策略 中 天 于 可 用 性 和 性 能 的 这 些 要 求 束 会 被 应 用 到 虚拟 机 对 象 上 。 


组 件 是 对 象 的 RAID 树 上 的 叶子 一 一 这 意味 着 ,一 “ 片 ” 组 件 是 存放 在 一 个 特定 的 “缓存 设备 + 容量 设备 ”的 组 合 (一 个 物 


理 磁盘 组 ) 上 的 。 组 件 通过 缓存 设备 (闪存) 获得 透明 [的 缓冲 /缓存 能 力 ， 其 数据 则 静 静 地 躺 在 容量 设备 (在 全 闪存 VSAN 配 
置 中 是 闪存 而 在 混合 VSAN 配 置 中 是 磁盘 ) E. 


在 VSAN 数 据 存 储 上 ， 虚 拟 机 可 以 具有 5 种 不 同类 型 的 对 象 。 注 意 ， 每 台 虚 拟 机 都 可 以 由 这 些 对 象 中 的 部 分 组 合 而 成 ， 这 些 
对 象 如 下 : 


- 虚拟 机 主页 (VM Home) 或 “名 字 空 间 目录 (namespace directory) 
“ 交换 文件 对 象 ( 如 果 虚 拟 机 处 于 开启 状态 ) 

- 虚拟 磁盘 /VMDK 

:为 快照 创建 的 增 量 盘 〈 每 个 对 象 ) 

- 可 选 地 为 快照 创建 的 快照 内 存 (每 个 对 象 ) 


在 这 5 种 对 和 象 中 ， 虚 拟 机 名 字 空 间 需 要 进一步 解释 一 下 。 所 有 虚拟 机 文件 ， 包 括 VMDK、 增 量 (AR). AF (快照 ) 和 区 
换文 件 都 存放 在 VSAN 上 一 块 叫做 虚拟 机 名 字 空 间 的 地 方 。 在 虚拟 机 主页 名 字 空 间 中 最 典型 的 文件 有 .vmx 虚 拟 机 描述 文件 、.log 
日 志文 件 、.vmdk 磁 盘 摘 述 文件 、 快 照 增 量 盘 摘 述 文件 以 及 所 有 其 他 可 能 在 虚拟 机 主页 目录 中 找到 的 文件 。 


VSAN 上 的 每 个 存储 对 象 都 可 以 被 看 成 一 棵 RAID 树 ， 每 片 树叶 就 是 一 个 组 件 。 例 如 ， 如 果 一 个 VMDK 的 条 市 宽 市 是 2， 且 无 
需 容忍 任何 故障 (不 要 管 为 什么 ) ， 那 么 这 个 VMDK 上 融会 配置 一 个 RAID-0 条 市 并 横 跨 2 块 磁盘 。 这 个 VMDK 是 一 个 对 象 ， 组 
成 它 的 每 一 片 条 市 融 是 这 个 对 象 的 一 个 组 件 。 


类 似 地 ， 如 果 定 义 了 这 块 VMDK 在 群集 中 应 该 至 少 容 忍 一 个 故障 (主机 、 磁 盘 或 网 络 ) ， 且 保持 其 他 所 有 集 略 设置 为 默认 
值 ， 融 要 对 这 个 VMDK 对 象 创 建 一 个 RAID-1 和 镜像 一 在 群集 内 的 一 人 台 主 机 上 有 一 个 副本 组 件 ， 同 时 在 另 一 台 主 机 上 有 另 一 个 慢 
本 组 件 。 最 后 ， 如 果 策 略 要 求 同 时 包 合 条 市 和 可 用 性 ， 那 么 条 市 组 件 将 会 在 主机 之 间 被 镜像 ， 最 终 形 成 了 RAIDO+1 配 置 。 单 个 
对 象 最 终 会 由 4 个 组 件 构成 ， 每 个 副本 中 有 2 个 条 市 组 件 。 


注意 ， 增 量 盘 是 在 对 虚拟 机 提 报 快照 的 时 候 创 建 出 来 的 ， 它 会 继承 其 母 盘 的 策略 (条 市 宽度 、 副 本 数 等 ) 。 
交换 文件 对 旬 仪 在 虚拟 机 开机 的 时 候 创 建 。 


另 有 一 个 组 件 叫做 见证 (witness) ， 它 非常 重要 ， 也 很 特殊 。 尽 管 它 不 直接 给 虚拟 机 提供 存储 空间 ， 但 是 不 可 否认 的 是 ， 
当 群 集中 的 虚拟 机 存储 对 象 出 现 故 障 的 时 候 ， 作 为 必要 的 仲裁 对 象 ， 它 是 非常 天 键 的 。 稍 后 我 们 还 会 讨论 见证 组 件 ， 现 在 让 我 们 
先天 注 虚 拟 机 存储 对 象 。 


[1] 对 于 存储 组 件 来 说 是 ， 闪 存 所 提供 的 缓冲 /缓存 功能 是 透明 的 ， 也 就 是 说 ， 组 件 不 关心 也 不 知道 自己 的 数据 是 通过 闪存 中 的 缓 
存 / 缓 冲 提 供 的 还 是 直接 访问 磁盘 得 来 的 。 





译 者 注 


5.2.1 ”组 件 的 限制 


天 于 VSAN 中 的 组 件 有 一 个 主要 的 限制 。 因 为 这 是 一 个 硬性 限制 并 且 最 终 会 影响 单 台 主机 和 群集 上 可 以 运行 的 虚拟 机 数量 ， 
理解 这 些 限制 是 非常 重要 的 。VSAN 5.5 的 限制 如 下 : 


每 台 主 机 的 最 大 组 件数 : 3000 


在 VSAN 6.0 中 因为 一 种 新 的 磁盘 格式 (on-disk format) 的 引入 ， 这 个 每 台 主 机 的 最 大 组 件数 的 上 限 增 加 了 。 


. 每 台 主 机 的 最 大 组 件数 : 9000 


每 台 主机 的 组 件 包括 处 于 关闭 状态 的 虚拟 机 、 未 注册 的 虚拟 机 和 模板 的 组 件 。VSAN 将 这 些 组 件 分 派 到 群集 中 的 各 台 主 机 


上 ， 并 试图 保持 一 种 均衡 的 分 布 。 然 而 ， 某 些 主机 拥有 的 组 件 仍 然 有 可 能 比 其 他 一 些 主机 更 多 。 所 以 这 就 是 为 什么 VMware 推荐 
的 最 佳 实践 是 使 得 一 个 VSAN 群 集 的 所 有 主机 尽 可 能 地 保持 类 似 (甚至 是 完全 一 至 ) 的 配置 。 在 设计 和 部 署 一 个 VSAN 群 集 的 时 
候 ， 组 件 的 数量 限制 是 设计 和 部 署 VSAN 和 群集 时 重要 的 决策 因素 ， 这 将 会 在 第 9 章 中 进一步 深入 探讨 。 


管理 员 可 以 使 用 vSphere Web 客 户 新 查看 虚拟 机 主页 名 字 空 间 和 虚拟 机 的 VM DK 等 对 象 及 其 组 件 的 布局 ， 图 5-3 提 供 了 一 个 
此 类 布局 的 示例 。 这 人 台 虚 拟 机 有 一 块 硬盘 ， 这 块 硬盘 在 2 人 台 不 同 的 主机 上 拥有 镜像 ， 你 可 以 在 Host 这 一 列 看 见 这 些 组 件 的 位 置 。 


Summary Monitor | Manage Related Objects 














Settings | Alarm Definitions | Tags | Permissions | VM Storage Policies | Scheduled Tasks | vSendces | 


VM Storage Policy assignments 


| Manage VM Storage Policies. | 
Cb 


Q Filter 
Name VM Storage Policy Comolisnoe Status 
C) VM home Ef? VDI-Desktops w Compliant 
Bs Hard disk 1 [fy VDI-Desktops ww Compliant 


Physical Disk Placement | Compliance Failures 
vdi-desktop-base-image - Hard disk 1: Physical Disk Placement 
= "EH 


Q Filter 
Type i a Component State Host S50 Disk Name 55D Di Uvid Mon-S5D Ds Name 
+ RND 1 


Component lg] Active 


Component lg] Active 
Witness 


(J esx-05acorp.. Z3 VMware Serial Altached SCS.. 


[] esx01a.corp.. Q3 VMware Serial Altached SCS 
国 Active J esx-03a.corp.... 


52ec7876-aaBa-0048-a812-9d1 
52311991-da2b-dcc7-ec0d-095 


GA VMware Serial Alfachet 


a VMware Serial Altachet 


GA VMware Serial Atached SCS.. 525/033f-27de-15C2-89C3-7798..— C3 VMware Serial Altachec 
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图 5-3 ”物理 磁盘 布局 


5.2.2 ”虚拟 机 仔 悄 对 象 


如 前 所 述 ，5 种 仓储 对 象 是 : 虚拟 机 主页 名 字 空 间 、 虚 拟 机 交换 文件 、 VMDK、 增 量 盘 和 快照 内 存 ， 如 图 5-4 所 示 。 我 们 将 
先 暂时 忽略 快照 内 存 而 更 多 地 讨论 一 下 其 他 组 件 。 


现在 我 们 将 讨论 虚拟 机 存储 策略 中 定义 的 特性 将 如 何 影 响 这 些 存储 对 象 。 注 意 ， 并 非 所 有 的 虚拟 机 存储 对 象 都 会 实施 这 些 策 
略 。 


5.2.3 ”名 字 空 间 


虚拟 机 使 用 名 字 空 间 (namespace) 对 象 来 作为 它 的 虚拟 机 主页 (VM Home) ， 并 用 它 来 仓储 没有 专属 对 象 的 其 他 所 有 
虚拟 机 文件 ， 如 以 下 这 些 内 容 (但 不 仅 限 于 此 ) : 


` .vmx、.vmdk (描述 文件 部 分 ) 、VMX 使 用 的 .log 日 志文 件 


- 用 于 VMware Horizon View 的 CBRCII 的 摘要 文件 这 个 功能 是 View 的 存储 加 速 器 。 虚 拟 桌 面 基 础 机 构 (VDI) 是 VSAN 的 一 个 
重要 用 例 。 


: vSphere Replication 和 Site Recovery Manager 的 文件 
客户 机 自 定 义 文件 


“ 由 其 他 软件 解决 方案 产生 的 文件 





虚拟 机 主 幢 虚拟 机 


VMDK 
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图 5-4 虚拟 机 存储 对 象 


这 些 独特 的 对 象 是 基于 每 台 虚 拟 机 的 。VSAN 使 用 VMFs 作 为 每 台 虚 拟 机 的 名 字 空 间 对 象 的 文件 系统 ， 来 仓 放 有 关 虚 拟 机 的 
所 有 文件 。 这 是 一 个 功能 完整 的 普通 的 VMF3， 也 融 是 说 它 具有 完整 的 广 持 群集 的 能 力 ， 我 们 可 以 将 它 用 在 那些 依赖 VMFs 的 功 
能 中 (例如 vMotion、vSphere HA) 。 如 果 你 去 每 台 ESXi 主 机 查看 文件 系统 ， 你 会 友 现 它 表 现 为 一 个 目 动 挂 载 的 子 目 录 。 然 
而 ， 尽 管 作为 普通 VMFS 来 使 用 的 ， 它 却 没有 其 他 环境 中 的 VMFS 所 具有 的 那些 限制 ， 因 为 连接 到 这 些 虚 拟 机 主页 名 字 空 间 
VMFs 卷 的 主机 数量 最 多 是 2 台 (例如 ， 在 vVMotion 友 生 时 ) ， 而 在 传统 环境 下 同样 的 VM Fs 卷 往往 是 同时 人 航 几 十 台 主 机 共享 
的 。 换 而 言 乙 ，VSAN 对 这 些 “ 普 通 ” 的 VMFs 卷 的 用 法 是 完全 不 同 的 ， 它 可 以 具有 更 局 的 扩展 性 和 更 佳 的 性 能 。 


用 于 虚拟 机 主页 的 虚拟 机 存储 策略 是 特殊 的 。 大 多 数 情况 下 ， 虚 拟 机 主页 存储 对 象 都 不 会 继承 与 YM DK 一 样 的 策略 要 求 。 
设想 一 下 ， 像 虚拟 机 主页 名 字 空 间 这 样 的 对 象 需要 什么 闪存 当 读 缓冲 或 者 条 带 功 能 吗 ”不 需要 ! 这 就 是 为 什么 即便 与 虚拟 机 关联 
的 策略 中 声明 这 些 能 力也 不 起 作用 的 原因 。 不 过 有 一 个 功能 的 确 是 继承 的 一 一 允许 的 故障 数 。 这 个 功能 使 虚拟 机 得 以 在 群集 中 
多 个 硬件 上 友 生 故障 的 时 候 仍 然 可 用 。 随 着 VSAN 6.2 的 发 布 ， 它 还 继承 容 乌 万 汉 的 策略 设置 ， 这 意味 着 虚拟 机 主页 名 字 空 间 可 以 


以 RAID-5 或 RAID-6 的 方式 部 署 ， 而 不 仅 限 于 以 前 版 本 中 的 RAID-1。 


由 于 对 于 虚拟 机 主页 存储 对 象 来 说 ， 高 性 能 不 是 主要 诉求 ， 继 承 下 来 的 VMDK 的 设置 会 被 覆盖 掉 ， 条 带宽 度 (Stripe 
Width) 总 是 设 成 1， 读 取 缓 存 预 留 (Read Cache Reservation) 总 是 设 成 0%， 而 且 对 象 空间 预 留 (Object Space 
Reservation) 被 设 成 0%， 所 以 它 总 是 精简 置 备 的 。 这 使 得 虚拟 机 主页 名 字 空 间 不 会 无 谓 消 耗资 源 ， 而 把 可 用 资源 留 给 那些 需要 
的 对 象 ,， 例如 VMDK。 


另外 一 个 要 点 是 ， 如 果 苹 略 中 设置 了 强制 置 备 (Force provisioning) ， 虚 拟 机 主页 名 字 空 间 对 象 会 继承 这 个 属性 ， 这 意味 
看 ， 即 使 资源 总 量 不 足 ， 虚 拟 机 也 会 被 部 署 。 


在 VSAN 6.2 中 引入 了 一 个 新 的 性 能 服务 ， 它 汇集 了 群集 中 所 有 ESXi 主 机 的 性 能 信息 汇集 起 来 ， 并 将 性 能 指标 存储 在 VSAN 
数据 存储 的 一 个 状态 表 中 。 这 个 存储 着 “状态 数据 库 ” 的 对 象 也 是 一 个 名 字 空 间 对 象 。 因 此 ， 名 字 空 间 对 象 的 使 用 不 仅 限 于 虚拟 
机 (尽管 这 是 最 常见 的 用 法 ) 。 





[1] CBRC 是 Content-Based Read Cache 的 缩写 ， 意 思 是 基于 内 容 的 读 缓冲 。 译 者 注 


5.2.4 虚拟 机 交换 文件 


虚拟 机 交换 文件 也 具有 目 己 的 特殊 策略 设置 。 虚 拟 机 交换 文件 的 策略 中 允许 的 故障 数 思 是 为 1， 主 要 原因 是 虚拟 机 重 局 时 是 
不 需要 交换 文件 持续 的 。 因 此 ， 如 果 HA 把 虚拟 机 在 群集 中 的 另外 一 台 主 机 上 重启 的 时 候 ， 一 个 新 的 交换 文件 会 被 创建 出 来 。 
Ib, 无需 在 可 以 容 妨 一 个 故障 的 水 平 之 上 再 增加 额外 的 保护 。 


默认 情况 下 ， 无 需 将 策略 中 的 对 象 空间 预 留 设 为 100%， 交 换文 件 也 会 事先 被 100% 地 置 备 出 来 。 这 意味 着 从 接 入 控制 的 角 
度 说 ， 如 果 没 有 足够 的 空间 来 容纳 整个 虚拟 机 交换 文件 ， 虚 拟 机 束 不 能 在 VSAN 上 置 备 出 来 。 在 VSAN 6.2 中 ， 有 一 个 新 的 高 级 
主机 选项 SwapThickProvisionDisabled， 它 可 以 允许 虚拟 机 交换 文件 以 精简 对 象 的 方式 被 置 备 出 来 。 如 果 这 个 高 级 设置 被 设 成 
True， 则 虚拟 机 交换 文件 对 象 将 是 精简 置 备 的 。 


5.2.5 VMDK 和 增 量 盘 
现在 你 知道 了 ， 当 虚拟 机 部 署 的 时 候 ， 虚 拟 机 主页 名 字 空 间 和 虚拟 机 交换 文件 (.vswp) 有 其 自己 的 默认 策略 ， 并 不 与 策略 
中 设置 的 功能 一 致 。 因 此 ， 只 有 VM DK 和 这 些 磁盘 文件 的 快照 文件 OBSS) 才 遵 循 设置 在 虚拟 机 存储 策略 中 的 那些 属性 。 


因为 VSAN 对 象 有 可 能 是 由 多 个 组 件 构成 的 ， 部 署 的 时 候 每 个 VMDK 和 增 量 盘 都 会 有 其 自己 的 RAID 树 配置 。 


5.2.6 ”见证 和 副本 


作为 RAID-1 树 的 一 部 分 ， 每 个 对 象 通常 都 有 多 个 副本 ， 我 们 已 经 知道 ， 这 些 副 本 是 由 一 个 或 多 个 组 件 组 成 的 。 在 此 我 们 想 
襄 ， 一 个 或 多 个 见证 组 件 可 能 会 随 着 虚拟 机 存储 对 象 的 创建 而 创建 。 在 RAID-1 树 中 ， 见 证 是 每 个 对 象 的 一 部 分 。 它 是 组 成 
RAID-1 树 的 叶子 ， 但 只 包括 元 数据 (metadata) 。 见 证 是 当 VSAN 群 集中 发 生 了 故障 后 进行 仲裁 决断 的 时 候 用 来 打破 平局 的 裁 
判 。 


让 我 们 用 一 个 最 简单 的 例子 来 解释 下 这 么 设计 的 目的 : 假设 要 部 署 的 虚拟 机 的 配置 是 条 市 免 大 为 1 上 且 人 允许 的 故障 数 为 1。 在 
这 个 例子 中 ， 我 们 不 想 使 用 RAID-5 或 RAID-6。 这 种 情况 下 ， 需 要 为 每 从 虚 拟 机 创建 2 个 副本 。 因 此 ，RAID-1 设 置 束 足够 了 。 然 
而 ， 在 2 个 副本 的 情况 下 ， 如 果 主机 之 间 失 联 ， 将 无 法 分 辨 这 到 底 是 主机 故障 还 是 网 络 分 区 的 情况 。 因 此 ， 需 要 在 配置 中 引入 一 
个 第 三 万 ， 这 就 是 见证 。VSAN 中 的 一 个 对 象 要 被 认定 为 可 用 ， 必 须 满足 以 下 两 个 条 件 : 


: RAID 树 必须 允许 数据 访问 (RAID-1 必 须 至 少 有 一 个 完好 的 副本 ，RAID-0 必 须 所 有 的 条 带 都 完好 ) 。 对 于 RAID-5 和 RAID- 
6 配置 来 说 ，RAID-5 要 求 4 个 组 件 中 必须 有 3 个 可 用 ， 而 RAID-6 则 是 6 个 组 件 中 必须 有 4 个 可 用 。 


. 在 VSAN 的 早期 版 本 中 ， 规 则 是 必须 有 超过 50% 的 组 件 可 用 。 从 VSAN 6.0 开 始 引 入 了 和 组 件 相 关联 的 投票 (vote) ， 规 则 


被 更 改 为 投票 至 少 要 超过 50%。 


在 前 面 的 例子 中 ， 只 有 当 能 同时 访问 一 个 副本 和 一 个 见证 ， 或 者 同时 访问 两 个 副本 (无 见证 ) 的 时 候 ， 才 能 够 访问 这 个 对 
条。 这 样 ， 在 出 现 网 络 分 区 的 情况 下 ， 至 少 有 部 分 群集 可 以 访问 这 个 对 象 。 


一 个 单 见 的 问题 是 ， 见 证 是 否 消耗 VSAN 数 据 仔 储 的 空间 ”在 最 切 的 VSAN 25.5 版 中 ， 使 用 VMFs 作 为 磁盘 格式 ， 一 个 见证 在 
VSAN 数 据 人 存储 上 消耗 大 约 2MB 空 间 来 存放 元 数据 。 自 从 VSAN 6.0 版 发 布 起， 使 用 VSANFS 作 为 磁盘 格式 ， 一 个 见证 在 VSAN 数 
据 存 储 上 大 约 要 消耗 4MB 空 间 来 存放 元 数据 。 尽 管 相对 而 言 见 证 占据 的 空间 很 小 ， 但 是 如 果 需 要 在 VSAN 上 大 量 部 署 很 多 虚拟 机 
和 很 多 VMDK， 在 进行 设计 、 容 量规 划 和 扩展 性 考量 的 时 候 ， 这 也 是 值得 考虑 的 因素 。 


5.2.7 对象 布局 


另 一 个 常常 被 提起 的 问题 是 ，VSAN 环 境 中 的 对 象 到 底 是 怎么 分 布 的 ? 如 前 所 述 ， 虚 拟 机 主页 空间 是 用 来 存储 虚拟 机 配置 文 
件 的 ， 它 是 VMFS 格 式 的 。 所 有 其 他 虚拟 机 磁盘 对 象 ( 不 论 是 VM DK 还 是 快照 ) 都 以 其 各 自 的 方式 被 实例 化 成 一 种 分 布 式 存储 对 
Ro 


REVSANR RENKA E RE CTARA RASE AR, BERMAN (RAI) 放置 决策 , 我 
们 能 够 理解 你 的 心情 ， 对 于 这 样 一 种 新 型 的 解决 方案 ， 你 可 能 希望 会 对 组 件 和 对 象 存 放 的 物理 位 置 有 更 好 的 了 解 。VMware 党 得 
管理 员 可 能 会 有 这 样 的 期 望 ， 因 此 ，vSphere 用 尸 界 面 中 有 地 方 可 以 让 管 理 员 来 查看 虚拟 机 对 象 的 布局 ， 并 可 看 见 组 成 一 个 存储 
对 象 的 每 个 组 件 (条 市 、 副 本 及 见证 ) 存放 的 位 置 ， 如 图 5-5 所 示 。 


出 于 可 用 性 的 考虑 ，VSAN 绝 不 会 让 不 同 的 副本 (镜像 ) 组 件 共 用 同一 全 主机 。 


注意 ， 在 VSAN 6.2 之 前 的 版 本 中 ， 我 们 看 不 见 虚 拟 机 交换 文件 对 象 。 这 是 因为 交换 文件 UUID 目 前 无 法 通过 VIM 应 用 程序 可 
编程 接口 来 获得 ， 因 此 无 论 是 Ruby vSphere Console (RVC, 将 在 第 10 章 介绍 ) 还 是 vSphere Web 客 户 端 都 无 法 显示 其 信 
息 。 不 过 ， 早 先 的 版 本 中 有 一 个 办 法 可 以 获取 交换 文件 的 信息 ， 稍 后 会 演示 。 在 VSAN 6.2 之 前 的 版 本 中 ， 快 照 / 增 量 盘 对 象 在 
vSphere 用 户 界面 中 也 不 可 见 ， 不 过 这 些 对 象 默认 是 继承 其 VMDK 母 盘 的 策略 配置 的 〈 也 就 是 说 其 对 象 分 布 和 其 VMDK 母 盘 是 一 
致 的 ) 。 
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Physical Disks 





图 5-5 RAID-1, 


然后 选择 虚拟 磁盘 ， 对 象 束 都 列 出 在 那里 了 。 我 们 已 


默认 虚拟 机 存储 策略 


VMware 鼓 励 管 理 员 们 不 要 依赖 默认 策略 的 设置 而 是 去 创建 自己 的 VSAN 策 略 。 不 过 
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竺 品 过 不 少 关 于 虚拟 机 存储 策略 的 概念 了 ， 现 在 让 我 们 再 深入 一 步 。 
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， 如 果 你 决定 在 VSAN 数 据 存 储 上 部 署 


虚拟 机 时 不 选择 任何 策略 ， 那 么 默认 策略 就 会 被 应 用 。 默 认 策 上 略 (名 字 叫 做 Virtual SAN default storage policy) 有 一 些 非 常 


特殊 的 特性 ， 


策略 使 得 管 


SEENE (不 管 
的 早期 版 本 中 这 种 情况 相当 常见 


， 我 们 惑 见 


过 很 多 


默认 策略 可 以 通过 vSphere Web 客 户 端 来 观察 ， 如 图 5-6 所 示 。 


是 什么 原因 ) 没有 选择 策略 的 情况 时 ， 它 可 以 防止 虚拟 机 及 其 相关 数据 置 于 风险 之 中 。 在 VSAN 
次 管理 员 在 匆忙 中 创建 了 虚拟 机 但 是 志 记 了 选择 策略 的 情况 
强调 的 是 ，VMware 强 烈 建议 管理 员 们 创建 自己 的 虚拟 机 存储 策略 ， 即 使 需求 和 默认 策略 完全 一 
里 员 可 以 获取 有 意义 的 合 规 性 检查 报告 


。 不 过 ， 的 确 需要 
致 。 这 仅仅 只 是 因为 一 点 : E 


Getting Started Summary Monitor | Manage | Related Objects 


Name and description  "ule-Set 1: VSAN f Edit. 
Rule-Set 1: VSAN Number of failures to tolerate 1 


Number of disk stripes per 1 
object 


Force provisioning No 
Object space reservation (%) 0 


Flash read cache reservation 0.0000 
(%) 


Disable object checksum Yes 





图 5-6 VSAN 默 认 存 储 策略 


由 此 我 们 可 以 推断 出 部 署 出 来 的 存储 对 象 总 是 带 有 人 允许 的 故障 数 为 1 的 属性 。 图 5-6 没 有 显示 出 来 的 是 容错 方法 策略 设置 ， 
它 的 默认 值 是 RAID-1 (Mirroring) -Performance。 这 意味 着 没有 使 用 RAID-5 配 置 (不 会 是 RAID-6) 。 换 而 言 之 ， 人 存储 对 象 
将 部 署 力 RAID-1 镜 像 方式 。 如 果 容 错 方 法 设置 成 RAID-5/6 (Erasure Coding) -Capacity， 那 么 根据 FTT 的 数值 的 不 同 ， 残 会 
实施 RAID-5 或 RAID-6， 其 中 的 关系 我 们 在 第 4 章 已 经 详细 探讨 过 了 。 图 5-7 显 示 了 在 一 个 策略 中 可 以 选择 的 各 种 容错 方法 的 选 
项 。 


Rules based on data services 


Failure tolerance method €) | RAID-1 (Mirroring) - Performance 
RAID-1 (Mirronng) = Performance 





—2 RAID-5/6 (Erasure Coding) - Capacity 





图 5-7 ”容错 方法 


天 于 默认 策略 需要 提起 的 另外 一 点 是 校 验 和 将 被 启用 ， 换 而 言 之 就 是 disable check-sum (禁用 校 验 和 和) 功能 将 被 设置 成 


false。 


最 后 一 点 和 强制 置 备 有 关 。 默 认 情 况 下 ， 强 制 置 备 为 No， 仪 VM 交 换文 件 对 象 是 个 例外 (对 其 默认 为 启用 ) 。 如 果 你 想 在 
一 个 单 主机 的 VSAN 和 群集 上 引导 一 台 vCenter Server， 在 当前 配置 下 是 无 法 实现 的 。 这 是 因为 默认 策略 中 的 允许 的 故障 数 为 1， 
如 果 只 有 一 台 主 机 可 用 ，VSAN 将 无 法 满足 这 个 条 件 ， 所 以 虚拟 机 将 无 法 创建 。 要 想 使 之 可 行 ， 必 须 更 改 默认 策略 ， 将 默认 策略 
中 的 强制 置 备 更 改 成 Yes。 


接 下 去 让 我 们 简短 地 看 一 下 ， 除 了 默认 策略 之 外 ， 省 理 员 还 能 在 一 个 策略 中 定义 些 什么 东西 。 


5.3 VSAN 软 件 组 件 


本 节 将 简要 介绍 组 成 分 布 式 软件 层 的 一 些 软件 组 件 。 


这 些 信息 大 多 数 都 不 会 企 vSphere 管 理 员 的 日 单 工 作 中 用 到 。 由 于 只 要 动 几 下 鼠标 束 可 完成 所 有 的 安 妆 配置 ，VSAN 将 纷繁 
复杂 藏 于 极 简 的 实施 育 后 。 不 过 ， 残 像 表 面 的 介绍 中 曾 提 过 的 ， 你 可 能 会 时 不 时 地 在 vSphere 用 户 界 面 中 或 是 在 VMkernel 日 志 
中 看 见 关 于 这 些 组 件 的 消息 ， 我 们 党 得 还 是 有 必要 把 这 些 幕后 的 主要 组 件 提 一 下 ， 给 你 一 些 关 于 这 些 组 件 是 如 何 运 作 的 背景 知 
识 。 而 且 ， 当 你 开始 使 用 RVC (第 10 草 会 介绍 ) 时 ， 大 量 输出 中 都 会 提 到 这 些 软件 组 件 ， 这 是 为 什么 我 们 要 人 在 这 里 简要 介绍 它 
们 的 另 一 个 原因 。 


VSAN 架 构 由 4 个 主要 组 件 组 成 ， 如 图 5-8 所 示 ， 后 面 我 们 会 进一步 详细 探讨 。 





图 5-8 VSAN 的 软件 组 件 


5.3.1 HFE 


VSAN 的 本 地 日 志 结 构 化 对 象 管理 器 (Local Log Structured Object Manager, LSOM) 作用 于 物理 磁盘 层面 。VSAN 是 
靠 LSOM 来 给 虚拟 机 存储 对 象 组 件 提 供 存 储 空间 的 〈 位 于 ESXi 主 机 的 本 地 磁盘 上 ) 并 且 还 包括 给 这 些 对 象 提 供 读 缓冲 〈 仪 混合 配 
置 ) 和 写 缓存 (混合 配置 和 全 闪存 配置 ) 。 膏 起 组 件 这 个 术语 ， 我 们 指 的 是 组 成 RAID-0 的 条 融 组 件 或 组 成 RAID-1 的 副本 组 件 ， 
它 也 可 能 是 RAID-5 或 RAID-6 配 置 中 的 数据 块 或 校 验 块 。 因 此 ，LSOM 是 作用 于 ESXi 主 机 的 磁盘 、 国 态 硬盘 和 | 闪存 设备 上 的 。 


天 于 LSOM 的 另 一 种 表述 是 : 它 负 责 为 VSAN 和 群集 提供 存储 的 一 致 性 。 这 人 句 话 内 在 的 意思 是 ， 它 存储 着 组 成 虚拟 机 存储 对 象 
的 组 件 、 所 有 的 配置 信息 以 及 虚拟 机 存储 策略 。 

LSOM 负 责 上 报 设备 层 的 事件 ， 如 设备 的 健康 状态 等 。 如 果 设 备 友 生 临时 性 偶 友 错误 时 ，LSOM 也 负责 重 试 出 错 的 |/O 操 
作 。 


LSOM 还 能 辅助 进行 对 象 的 恢复 。 每 次 ESXi 主 机 启动 时 ，LSOM 会 进行 SSD 日 志 恢 复 ， 这 会 引发 一 次 对 所 有 日 志 的 读 取 来 保 
证 内 存 状 态 是 最 新 的 和 正确 的 。 这 意味 着 加 入 VSAN 群 集 的 ESXi 主 机 比 未 加 入 VSAN 群 集 的 ESXi 主 机 在 重新 启动 时 要 花 更 多 的 时 
EIR 


5.3.2 ”对 象 的 效 据 路 径 


分 布 式 对 象 管理 器 (Distributed Object Manager, DOM) 给 建立 在 本 地 (LSOM) 组 件 之 上 的 对 象 提供 分 布 式 的 数据 访 
问 路 径 。DOM 负 责 将 分 布 在 VSAN 群 集中 多 台 ESXi 主 机 上 的 本 地 组 件 创建 成 可 靠 的 、 可 容错 的 虚拟 机 存储 对 象 ， 这 是 通过 向 存 
储 对 象 实施 分 布 式 RAID 类 型 来 实现 的 。 


DOM 还 负责 处 理 各 种 不 同类 型 的 故障 ， 例 如 设备 |/O 故 障 和 无 法 联系 主机 的 问题 。 当 发 生 了 意外 的 主机 故障 后 进行 恢复 
时 ，DOM 必 须 重新 同步 每 个 对 象 的 所 有 组 件 。 组 件 每 隔 一 段 时 间 就 发 布 一 次 bytesToSync 值 来 报告 同步 操作 的 进行 状况 。 恢 复 
操作 正在 发 生 的 时 候 ， 可 以 通过 vSphere Web 客 户 端 的 用 户 界面 观察 到 。 


5.3.3 “对象 的 归属 


本 章 中 我 们 时 不 时 会 提起 对 象 属 主 (object owner) ， 让 我 们 再 更 详细 地 表述 一 下 什么 是 对 象 属 主 。 对 于 群集 中 的 每 一 个 
存储 对 象 ，VSAN 都 会 为 其 选 出 一 个 属 主 。 属 主 可 以 被 视 为 是 存储 机 头 ， 它 负责 协调 (在 VSAN 范 围 内 ) 谁 可 以 对 这 个 对 象 进行 
|/O 操 作 。 属 主 基 本 上 是 这 人 么 一 个 实体 ， 它 要 通过 人 处理 每 一 次 事务 (修改 对 象 的 数据 /元 数据 的 操作 ) 来 保证 分 布 式 对 象 的 数据 一 
致 性 。 


作为 类 比 ， 考 虑 一 下 NFS 配 置 中 的 NFS 服 务 器 和 NFS 客 尸 端 的 概念 。 只 有 特定 的 客 尸 端 可 以 成 功 与 服务 器 通信 。 在 这 个 例子 
中 ，VSAN 和 存储 对 象 的 属 主 可 以 比 作 NFS 服 务 器 ， 它 决定 了 哪些 客户 端 可 以 进行 |/O 操 作 而 哪些 不 可 以 。 对 象 属 主 概 念 中 的 最 后 
一 部 分 是 组 件 管 理 器 ， 它 可 以 被 视 为 LSOM 的 网 络 前 端 ( 换 而 言 之 ，VSAN 中 的 一 个 存储 对 象 是 如 何 被 访问 的 ) 。 


对 象 属 主 通过 与 组 件 管理 器 通信 来 找到 RAID 树 上 的 叶子 ( 即 存储 对 象 的 组 件 ) 。 通 常情 况 下 只 有 一 个 客 尸 端 访问 对 象 ， 然 
而 在 vMotion 操 作 时 ， 多 个 客 尸 端 可 能 会 访问 同一 个 对 象 。 绝 大 多 数 情 况 下 ， 对 象 属 主 和 客户 并 位 于 VSAN 和 群集 的 同一 个 书 点 
上 。 


5.3.4 对象 的 政 午 与 迁移 


群集 级 别 对 象 管理 器 (Cluster Lever Object Manager, CLOM) 负责 保证 对 象 的 配置 与 其 策略 匹配 (EE, RKA 
条 市 宽度 已 疏 实 施 或 者 已 经 置 备 了 足够 数量 的 镜像 /副本 来 满足 虚拟 机 的 可 用 性 要 求 ) 。CLOM 是 这 样 运作 的 : 它 接受 分 配给 对 
象 的 策略 ， 然 后 进行 大 量 不 同 的 探索 来 找到 现在 群集 中 可 满足 策略 要 求 的 配置 。 与 此 同时 ， 它 还 保持 着 VSAN 中 所 有 节操 之 间 资 
源 利用 的 平衡 。 


然后 DOM 实 施 由 CLOM 给 予 的 配置 。CLOM 在 群集 的 不 同 ESXi 主 机 之 间 分 发 组 件 。CLOM 试 图 形成 某 种 程度 上 的 平衡 ,不 
过 某 些 主机 比 其 他 主机 具有 更 多 组 件 的 情况 并 不 少见 ， 例 如 已 用 容量 / 预 留 容 量 或 已 用 的 闪存 读 取 缓 存 / 预 留 的 缓存 比 其 他 主机 更 


W 


VSAN 和 群集 上 的 每 个 节点 都 运行 着 CLOM 的 一 个 实例 ， 名 为 comd。CLOM 的 每 个 实例 都 对 本 主机 上 上 DOM 支配 的 对 象 的 配 
置 和 策略 合 规 性 负责 ， 因 此 它 需 要 和 CMMDS (Cluster Monitoring, Membership, and Directory Service， 和 群集 监控 、 成 
员 和 目录 服务 ) 通信 来 获取 归属 转移 的 情况 。CLOM 只 和 本 机 的 实体 通信 ， 它 不 使 用 网 络 。 


5.3.9 CMMDS 


CMMDS 的 目的 是 友 现 、 建 立 和 维护 群集 的 相互 联网 的 节操 成 员 。 它 管理 着 物理 群集 资源 清 蛙 ,例如 主机 、 设 备 、 网 络 以 及 
仓储 对 和 象 元 数据 信息 (如 策略 、 分 布 式 RAID 配 置 等 等 ) ， 并 把 它们 存放 在 内 存 数 据 库 中 。 对 象 元 数据 还 忌 是 会 保存 一 份 在 磁盘 
上 。 它 还 对 书 点 和 网 络 路 径 的 故障 友 现 负责 。 


其 他 软件 组 件 通 过 浏览 目录 和 订阅 更 新 来 学 习 群 集 拓 扑 和 对 销 配 置 的 变化 。 例 如 ，DOM 可 以 利用 目录 的 内 容 决定 哪个 节点 
存储 对 象 的 组 件 以 及 决定 可 到达 节 点 的 路 径 。 


注意 ， 仅 当主 机 之 间 存 在 组 播 网 络 连 接 时 CM M DSs 才 会 构建 一 个 群集 (并 选举 出 主 控 ) 。 


CMMDs 用 来 选举 对 象 的 “ 属 主 ”。 如 前 所 述 ， 对 象 的 属 主 会 对 特定 对 象 进行 所 有 的 RAID 操 作 。 


5.8.0 ”主机 角色 (HE, MAARE) 


当 VSAN 群 集 形 成 时 ， 你 可 能 会 注意 到 VSAN 群 集中 的 每 人 台 ESXi 主 机 都 具有 一 个 特定 的 角色 (这 可 以 通过 esxcli 命 令 行 来 看 
到 ) 。 这 些 角 色 仅 用 于 VSAN 和 群集 服务 。 群 集 服务 (CMMDS) 负责 维护 一 个 最 新 的 目录 ， 包 括 磁盘 、 磁 盘 组 和 VSAN 群 集中 每 
台 ESXi 主 机 上 的 对 象 。 这 管 理 群集 中 对 象 或 对 象 的 |/O 操 作 完 全 无 天 ， 仪 仪 是 允许 群集 中 的 节点 可 以 追踪 到 其 他 节操 。 群 集 服 
务 是 基于 主 控 (包括 备用 ) 和 代理 的 ， 所 有 的 书 点 都 会 将 更 新 友 送 给 主 控 ， 主 控 然 后 把 这 些 更 新 通过 顺序 可 靠 的 VSAN 特 定 的 组 
播 协 议 重 新 分 发 给 代理 。 这 就 是 为 什么 VSAN 网 络 必须 具有 处 理 组 播 流量 的 能 力 的 原因 (前 面 提 到 过 ) 。 角 色 是 在 群集 发 现 过 程 
中 赋予 的 ， 这 个 过 程 也 是 VSAN 和 群集 中 的 ESXi 主 机 选举 主 控 的 时 候 。vSphere 管 理 员 对 于 群集 成 员 会 获得 何 种 角色 没有 控制 权 。 


一 个 常见 的 问题 是 为 什么 需要 备用 角色 ? 这 是 因为 如 果 当 前 主 控 角色 的 ESXi 主 机 友 生 了 灾难 性 的 故障 而 没有 备用 的 话 ， 所 有 
ESXi 主 机 必须 根据 新 选举 出 来 的 主 控 重 新 刷新 目 己 全 部 目录 的 内 容 使 之 与 新 的 主 控 保 持 一 尾 。 这 蕊 味 着 群集 中 的 所 有 节点 可 能 都 
需要 把 从 目 己 的 角度 所 获知 的 群集 的 目录 的 内 容 友 送 给 主 控 。 如 果 有 备用 的 话 ， 束 不 需要 把 这 些 信息 在 网 络 上 重新 传输 一 次 了 ， 
并 且 可 以 加 速 新 主 控 书 点 的 选举 过 程 。 


就 VSAN 延 伸 群 集 来 说，VSAN 6.1 中 新 增 了 一 种 配置 ， 人 允许 VSAN 群 集中 的 节点 在 地 理 上 分 布 在 不 同 的 站 点 一 一 主 控 节点 
将 位 于 某 一 个 站 点 ， 而 和 钾 份 书 点 位 于 另 一 个 站 点 。 


重点 是 对 于 用 户 或 vSphere 管 理 员 来 滴 ， 被 选举 成 为 主 控 角 色 的 ESXi 节 点 并 没有 特别 的 功能 或 其 他 显而易见 的 不 同 之 处 。 
为 主 控 是 自动 选举 出 来 的 ， 束 算 它 发 生 了 故障 ， 由 于 这 个 节点 和 其 他 节点 没有 功能 上 的 区 别 ， 因 此 在 主 控 太 点 上 的 进行 操作 还 是 
和 在 其 他 节点 上 进行 完全 无 所 谓 。 


5.3.7 JIRUE ZH 


可 靠 数 据 报 传输 (Reliable Datagram Transport, RDT) 是 VSAN 的 内 部 通信 机 制 。 它 使 用 TCP 作 为 传输 层 ， 并 根据 需要 
创建 或 删除 TCP 连 接 (ERF) 。 


RDT 是 构建 在 VSAN 和 群集 服务 之 上 的 ， 和 群集 服务 使 用 心跳 来 决定 链 路 状态 。 如 果 友 现 了 链 路 故障 ，RDT 束 会 中 断 这 条 路 径 上 
的 连接 并 另 选 一 条 健康 的 路 径 。 


当 需 要 对 一 个 VSAN 对 象 进 行 操 作 时 ，DOM 使 用 RDT 来 与 VSAN 对 象 的 属 主 对 话 。 因 为 RDT 承 诺 可 靠 交 付 ， 其 使 用 者 可 以 在 
路 径 或 节点 故障 时 依靠 它 来 重新 发 起 请 求 ， 这 可 能 会 导致 对 象 归属 的 变化 并 变更 到 通 往 对 象 属 主 的 新 的 路 径 。CMMDS (通过 心 
跳 和 监控 功能 ) 和 RDT 负 责 处 理 超 时 (timeout) 及 路 径 故障 。 


54 磁盘 格式 


在 研究 不 同 I|/O 相 关 的 数据 流 之 前 ， 让 我 们 来 简要 地 聊 一 聊 VSAN 的 磁盘 格式 (On-disk Format) 。 


5.4.1 缓 仔 设备 


VMware 对 VSAN 缓 存 层 中 的 闪存 设备 使 用 其 私有 的 辜 盘 格 式 。 在 同时 具有 读 缓 ;中 和 写 缓存 的 竟 合 配置 VSAN 中 ， 闪 存 设 备 
的 读 缓冲 部 分 具有 其 自己 的 磁盘 格式 ， 而 写 缓 仓 部 分 则 另 有 一 种 日 志 结构 的 格式 。 而 全 内 和 仓 VSAN 只 有 写 缓 仔 ， 没 有 读 缓 冲 。 这 
两 种 格式 都 是 新 的 和 特别 设计 的 ， 用 来 在 内 存 设备 固件 提供 的 基本 功能 之 外 增加 其 耐久 能 力 。 


5.4.2 ”容量 设备 


可 能 会 令 某 些 人 惊讶 的 是 ，VMware 在 最 初 的 VSAN 5.5 上 使 用 VMFS 作 为 磁盘 格式 。 不 过 这 不 是 传统 的 VMFS， 而 是 VSAN 
特有 的 一 个 新 格式 ， 叫 做 VMFS Local (VMFS-L) 。VMFS-L 是 VSAN 中 每 台 ESXi 主 机 的 本 地 存储 的 磁盘 文件 系统 的 格式 。 标 准 
的 VMFS 文 件 系统 是 特别 为 群集 环境 设计 的 ， 多 台 主 机 可 以 共享 一 个 数据 存储 。 它 不 是 为 单 主 机 /本 地 磁盘 环境 设计 的 ， 而 且 肯 
定 不 是 为 分 布 式 数据 存储 设计 的 。 对 于 分 布 式 存储 来 说， 就 要 用 到 VMFS-L 了 。 首先 ， 群 集 的 磁盘 锁定 及 与 其 相关 的 VMFS 心 跳 
被 移 除 了 。 这 些 功能 仪 在 多 台 主 机 共享 文件 系统 的 时 候 才 需要 用 到 ， 而 在 单 主 机 的 时 候 是 不 需要 的 。 现 在 新 的 锁 管理 器 (Lock 
Manager) 取代 了 在 疮 上 设 定 SCSI 预 留 (SCSI reservation). 来 锁定 元 数据 的 万 法 ， 完 全 不 骨 需 要 使 用 SCSI 预 留 了 。VMFS-L 也 
不 再 需要 磁盘 心跳 机 制 了 ， 现 在 只 需要 简单 地 更 新 一 下 内 存 中 的 心跳 副本 (因为 其 他 主机 无 须知 道 这 个 锁 ) 就 足够 了 上。 测试 显 
示 ， 通 过 这 些 变化 ，VMFS-L 置 备 磁盘 所 需要 的 时 间 只 有 标准 VMFS 的 一 半 。 


VSAN 6.0 引 入 了 一 种 新 的 磁盘 格式 ， 它 基于 VMware 收 购 的 一 家 名 为 Virsto 公 司 开发 的 VirstoFS， 一 种 高 性 能 的 稀 鸣 文件 
系统 。 作 为 v2 格式 ， 它 提高 了 VSAN 6.0 快 照 (通过 新 的 vsanSparse 格 式 ) 和 克隆 的 性 能 。 用 户 可 以 通过 无 颖 滚动 升级 过 程 从 
VMFS-L (v1) 升级 到 VSANFS (v2) 。 这 种 升级 过 程 依次 将 每 台 主 机 的 磁盘 组 中 的 内 容 清空 并 移动 到 群集 中 的 其 他 地 方 ， 然 后 
将 主机 上 的 磁盘 组 移 除 并 重建 生成 新 的 v2 磁盘 格式 ， 然 后 重复 这 一 过 程 直 到 所 有 的 磁盘 组 都 升级 完毕 。 


到 了 VSAN 6.2， 为 了 满足 新 的 特性 和 功能 要 求 〈 例 如 去 重 、 压 缩 与 校 验 和 ) ， 引 入 了 另 一 种 磁盘 格式 (v3) 。 它 还 是 基于 
VSANFs 的 ， 不 过 为 了 文 持 这 些 新 功能 添加 了 额外 的 特性 。 


55 VSAN I/O 


在 接 下 去 的 几 个 段落 中 ， 我 们 将 跟踪 MO 流 ， 看 看 一 台 部 署 到 VSAN 数 据 存 储 上 的 虚拟 机 ， 其 客户 操作 系统 中 的 应 用 程序 进 
行 读 写 操作 时 的 Il/O 流 是 怎样 的 。 我 们 将 观察 当 条 市 宽度 设置 成 2 的 时 候 的 读 操作 ， 还 将 观测 当 人 允许 的 故障 数 为 1 的 时 候 写 操作 都 
是 怎样 的 。 这 将 有 助 于 理解 底层 的 |/0 流 ， 并 帮助 你 了 解 在 设 定 其 他 功能 值 时 的 |/O 流 。 我 们 还 将 讨论 回 写 到 容量 层 的 过 程 ， 

因为 这 也 是 去 重 和 压缩 起 作用 的 过 程 。 在 开始 之 前 ， 计 我 们 先 来 看 看 在 |/O 路 径 中 闪存 的 作用 。 


5.5.1 ”缓存 算法 


混合 配置 和 全 闪存 配置 的 缓存 算法 是 不 同 的 。 概 括 来 说 ， 竟 合 配 置 关心 如 何 优化 从 缓存 层 到 容量 层 的 回 写 (destaging) , 
而 全 闪存 配置 关心 的 是 如 何 确保 热 数据 块 (活动 数据 ) 保留 在 缓存 层 中 而 冷 数据 块 (不 被 访问 的 数据 块 ) 保留 在 容量 层 中 。 


5.5.2 ”缓存 层 的 角色 


如 前 面 的 草书 所 述 ， 当 在 混合 配置 中 用 作 绥 存 层 时 ，SSD (在 这 里 此 术语 等 同 于 闪存 设备 ) 对 VSAN 来 说 有 2 个 用 途 : ERE 
冲 和 写 缓存 ， 这 大 幅 提 升 了 虚拟 机 的 性 能 。 在 某 些 方面 ，VSAN 可 以 比 作 是 市 场 上 大 量 的 “混合 (hybrid) 存储 解决 方案 ， 那 
些 混合 存储 解决 方案 也 使 用 了 把 SSD 和 磁盘 组 合 在 一 起 来 提高 |//O 性 能 的 方法 ， 但 是 它们 基于 低 成 本 的 SATA 或 SAS 磁 盘 驱 动 器 ， 
仅 具 有 横向 扩展 容量 的 能 力 。 


全 闪存 配置 的 VSAN 没 有 读 缓 ;中 ， 缓 存 层 仪 用 作 写 缓存 。 
读 缓冲 的 目的 


渴 合 配置 中 读 组 ;站 的 目的 是 维护 一 个 经 常 被 虚拟 机 访问 的 磁盘 块 的 列表 。 当 组 站 命中 的 时 候 可 以 减少 读 |/O 的 延迟 ， 缓 ;中 命 
中 的 意思 融 是 数据 块 位 于 缓冲 区 内 ， 不 需要 从 磁盘 取 回 。 虚 拟 机 中 应 用 程序 正在 读 取 的 真正 的 数据 块 可 能 不 在 虚拟 机 运行 的 同一 
台 主 机 上 ， 在 这 种 情况 下 ，DOM 为 特定 的 读 (基于 offset) 选择 一 个 镜像 并 把 它 OREK) 友 送 给 正确 的 镜像) 组件， 然后 
尼 锐 友 送 给 LSOM 来 判断 数据 块 是 否 在 缓存 中 。 如 果 友 生 了 缓冲 未 命中 的 情况 ， 数 据 将 会 直接 从 磁盘 取 回 ， 当 然 ， 这 会 引起 延迟 
惩罚 ， 并 可 能 影响 到 VSAN 每 秒 输入 /输出 操作 的 数量 (IOPS) 。 这 融 是 混合 配置 VSAN 中 读 缓冲 的 目的 ， 它 减少 了 需要 友 往 磁 
盘 的 IOPs 数 ， 其 目标 是 读 缓冲 合 中 至 少 达 到 90”%。V3SAN 还 具有 读 缓冲 预 读 优化 功能 ， 它 将 要 读 取 的 数据 块 附近 的 1MB 数 据 也 
同时 读 进 缓冲 区 内 。 


VSAN 忌 是 试图 确保 读 请 求 是 友 往 同一 个 镜像 副本 的 ， 这 样 数据 块 只 会 在 群集 中 被 缓存 一 次 ， 换 句 话 来 解释 : 它 只 存在 于 一 
个 缓存 设备 的 绥 ; 中 区 内 ， 这 个 缓存 设备 位 于 读 请 求 友 往 的 那个 镜像 副本 所 在 的 那 台 ESXi 主 机 上 。 因 为 缓存 空间 是 相对 昂贵 的 ， 这 
个 机 制 可 以 对 VSAN 所 需 的 缓存 进行 优化 。 正 确 地 设置 VSAN 缓 冲 的 大 小 会 对 稳 态 下 的 性 能 产生 非常 显著 的 影响 。 


为 什么 全 闪存 配置 VSAN 中 没有 读 缓 冲 


在 全 闪存 配置 VSAN 中 ， 因 为 容量 层 也 同样 是 内 仔 ， 如 果 读 缓冲 没有 命中 ， 从 容量 层 取 回 数据 块 的 代价 不 会 像 混合 配置 要 去 
磁盘 中 取 回 那样 大 。 事 实 上 ， 这 是 一 个 非常 快 的 操作 (通常 小 于 1 毫秒 ) 。 因 此 ， 对 于 全 闪存 配置 VSAN 来 说 完 全 没有 必要 再 加 
入 一 个 基于 闪存 的 读 组 ;中 ， 因 为 容量 层 束 已 经 能 够 高 效 地 处 理 读 操作 了 。 缓 存 层 不 用 作 读 缓 ; 中 ， 还 可 以 释放 出 缓存 层 的 空间 更 多 
地 用 于 写 操作 ， 进 一 步 提 高 总 体 性 能 。 


写 缓 仔 的 目的 


无 论 是 全 闪存 还 是 混合 配置 VSAN 中 的 写 缓存 都 表现 为 一 种 回 写 的 缓存。 写 在 进入 缓存 层 中 的 闪存 设备 的 准备 阶段 时 被 确 
认 。 事实 上 ， 在 混合 配置 中 对 写 操 作 使 用 内 存 设备 可 以 显著 减 少 写 入 的 延迟 ， 因 为 写 在 被 确认 前 不 需要 和 直接 回 写 进 容 量 层 。 


因为 写 会 先进 入 缓存 层 | 闪存 设 备 ， 我 们 必须 确保 这 个 数据 块 会 有 另外 一 个 拷贝 存放 在 VSAN 群 集 的 某 个 地 方 。VSAN 中 的 所 
有 虚拟 机 都 具有 一 个 可 用 性 策略 设置 来 保证 虚拟 机 数据 至 少男 有 一 个 可 用 的 拷贝 (除非 管 理 员 特别 选择 FFT=0 来 覆 蘑 挥 默 认 策 
略 ) 。 可 用 性 策略 写 缓存 的 内 容 。 一 旦 客户 操作 系统 中 的 应 用 程序 友 起 了 写 操作 ， 这 个 动作 就 会 同时 写 入 到 所 有 副本 中 。 写 会 被 
缓存 到 VM DK 和 存储 对 象 的 组 件 所 在 的 磁盘 组 天 联 的 缓存 层 内 存 设备 上 。 


这 意味 着 当 一 人 台 主 机 友 生 故障 时 ， 我 们 还 另 有 一 份 缓 仔 内 的 数据 ， 所 以 不 会 友 生 数据 丢失 。 虚 拟 机 只 需 简 单 地 重新 使 用 这 个 
馈 复 制 的 缓存 副本 及 其 被 复制 的 磁盘 数据 即 可 。 


注意 ， 全 闪存 配置 VSAN 继 续 利用 缓存 层 作为 写 组 趣 ， 和 混合 配置 一 样 ， 所 有 虚拟 机 的 写 都 会 先进 入 这 个 缓存 设备 。 这 里 主 
要 的 算法 变化 是 写 缓存 是 如 何 被 使 用 的 。 写 缓存 现在 用 来 保存 “ 热 ” 数 据 块 (处 于 变化 状态 的 数据 ) 。 只 有 当 数 据 块 
变 “ 冷 ” (个 再 变更 /人 航 写 入 ) 的 时 候 ， 才 会 饿 移动 到 容量 层 。 


5.5.3. 剖析 混合 VSAN 中 的 读 操 作 


对 于 VSAN 数 据 存储 中 的 对 象 来 咒 ， 当 使 用 RAID-1 配 置 且 虚 拟 机 存储 策略 中 人 允许 的 故障 数 的 值 大 于 0 的 时 候 ， 是 有 可 能 存在 
多 个 副本 的 。 此 时 ， 读 可 能 跨 副 本 友 生 。 根 据 磁盘 上 的 逻辑 块 地 址 (Logical Block Address, LBA) 的 不 同 ， 不 同 的 读 请 求 可 
能 会 友 往 不 同 的 副本 。 这 保证 了 VSAN 不 会 消耗 不 必要 的 读 缓 仔 ， 而 且 避 免 了 把 同一 份 数据 缓 仔 到 多 个 地 方 。 


举例 来 襄 ， 当 虚拟 机 中 的 应 用 程序 友 起 了 一 个 读 请 求 ， 融 会 移 询问 群集 服务 (CMMDS) 来 判断 谁 是 数据 的 属 主 。 属 主 使 用 
LBA 判 断 应 由 哪个 组 件 来 服务 这 个 请 求 ， 并 将 请 求 友 往 那个 组 件 。 如 果 数 据 块 位 于 读 缓 冲 内 ， 那 么 读 请 求 融和 直接 由 那个 读 缓冲 提 
供 服 务 。 如 果 读 缓冲 未 能 命中 ， 说 明 数 据 块 不 在 缓冲 区 内 ， 下 一 步 融会 从 容量 层 读 取 数 据 ， 而 对 于 混合 VSAN 来 说 ， 容 量 层 是 由 
磁盘 构成 的 。 


如 前 所 述 ， 对 象 的 属 主 会 把 读 请 求 分 散 到 组 成 这 个 对 象 的 各 个 组 件 上 ， 这 样 一 个 给 定 的 数据 块 融 最 多 只 会 在 1 个 节点 上 被 缓 
存 起 来 ， 这 最 大 限度 地 有 效 利用 了 缓存 层 。 很 多 情况 下 ， 数 据 存在 另 一 人 ESXi 主机 的 存储 上 ， 葡 可 能 必须 通过 网 络 来 进行 传输 。 
一 旦 数据 被 取 回 ， 融 会 反馈 给 请 求 者 的 ESXi 主 机 并 服务 于 应 用 程序 。 


图 5-9 给 出 的 融 是 VSAN 上 读 操 作 的 相关 步骤 的 示意 图 。 在 这 个 特定 的 例子 中 ， 条 市 宽度 设 成 了 2， 虚 拟 机 仓储 对 象 的 条 市 分 
布 到 了 不 同 主机 的 磁盘 上 (用 VSAN 术 语 来 襄 ， 每 个 条 市 都 是 一 个 组 件 ) 。 注 意 ，stripe-1a 和 stripe-1b 位 于 同一 台 主 机 上 ， 而 
stripe-2a 和 stripe-2b 位 于 不 同 的 主机 上 。 在 我 们 的 例子 中 ， 需 要 从 stripe-2b 来 读 取 数据 。 如 果 属 主 不 拥有 虚拟 机 上 的 应 用 程序 
试图 读 取 的 数据 块 ， 读 请 求 将 通过 万 兆 以 太 网 络 来 取 回 数据 块 。 
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5.5.44 ”剖析 全 闪存 VSAN 中 的 读 操 作 


因为 全 闪存 VSAN 配 置 中 没有 读 缓冲 ， 所 以 和 混合 配置 中 的 读 操 作 比 起 来 ， 输 入 输出 流 有 些 细微 的 不 同 。 在 全 闪存 VSAN 
中 ， 当 读 请 求 友 起 的 时 候 ， 会 先 检查 写 缓存 ， 看 看 (被 请 求 的 ) 数据 块 是 否 存 在 其 中 (也 丈 是 检查 这 是 不 是 一 个 热 数据 块 ) 。 顺 
便 训 一句 ， 混 合 配置 中 也 有 这 个 步 又。 如 果 要 读 取 的 数据 块 在 写 缓 仔 中 ， 融 会 直接 从 那里 取 回 。 如 果 请 求 的 数据 块 不 在 写 缓 仔 
中 ， 数 据 块 将 从 容量 层 取 回 。 记 得 在 全 闪存 VSAN 中 ， 容 量 层 也 是 由 闪存 组 成 的 。 所 以 读 取 延迟 开销 非常 小 ， 这 束 是 我 们 在 全 内 
仔 VSAN 配 置 中 不 实施 读 缓存 而 将 所 有 缓存 层 都 用 于 写 绥 存 的 原因 。 如 前 所 述 ， 通 过 不 实施 读 缓存 ， 我 们 可 以 将 缓存 层 空间 更 多 
地 用 于 写 操作 ， 从 而 提升 整体 的 IOPS 性 能 。 


5.5.5 “剖析 混合 VSAN 中 的 写 操作 


现在 我 们 知道 了 读 的 工作 原理 ， 让 我 们 来 看 看 写 操作 。 当 部 署 一 台新 的 虚拟 机 的 时 候 ， 组 件 是 存储 在 多 台 主 机 上 的 。VSAN 
并 没有 数据 本 地 化 的 意图 ， 因 此 有 可 能 出 现 虚 拟 机 在 esxi-01 上 运行 (从 CPU 和 内 存 角 度 来 看 ) 而 其 虚拟 机 存储 组 件 实际 上 是 存 
放 在 esxi-02 和 esxi-03 上 的 情况 ， 如 图 5-10 所 示 。 
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图 5-10 VSANI/OZ&: 写 确认 


当 虚 拟 机 中 的 应 用 程序 友 起 一 个 写 操作 上 时， 对象 属 主 克 隆 这 个 写 操作 。 并 友 的 写 请 求 同 时 通过 万 兆 网 络 友 往 esxi-02 上 的 写 
缓存 (SSD 闪存 设备 ) 以 及 esxi-03 上 的 写 缓存 (SSD 闪存 设备 ) 。 当 数据 写 入 缓存 时 ， 写 束 锐 确认 了 ， 此 时 SSD 上 的 准备 操作 束 
完成 了 。 属 主 等 街 所 有 2 人 台 主 机 的 ACK 信 号 后 完成 MO。 稍 后 这 个 写 入 会 作为 批量 处 理 的 一 部 分 最 终 回 写 到 磁盘 上 。 各 主机 的 回 
写 操 作 都 是 相互 独立 的 ， 也 残 是 襄 ，esxi-02 的 回 写 操作 的 时 间 可 能 和 esxi-03 不 同 。 这 无 须 协 调 一 致 因为 不 同 主机 的 情况 不 同 ， 
例如 缓 仓 空间 填 满 的 速度 、 剩 余 空 间 的 大 小 以 及 数据 将 仔 放 在 磁盘 的 什么 地 方 都 可 能 是 不 同 的 。 


5.5.6 ”剖析 全 闪存 VSAN 中 的 瑟 操 作 


全 内 存 VSAN 中 的 写 操作 和 混合 VSAN 中 的 非常 相似 。 在 混合 配置 中 ， 只 有 30% 的 缓存 层 用 于 写 缓存 ， 其 他 70% 被 分 配给 
读 组 ;中 。 因 为 在 全 闪存 配置 中 没有 读 缓 ;中 ， 所 有 100% 的 组 ;站 层 都 被 分 配给 了 写 缓存 (在 当前 版 本 的 VSAN 中 其 上 限 为 
600GB) 。 不 过 ， 笔 者 癌 得 这 个 上 限 值 在 不 久 的 将 来 应 该 会 增 大 。 


混合 VSAN 和 全 闪 仓 VSAN 的 缓冲 层 的 角色 也 有 一 些 细微 的 差别 。 如 同 我 们 曾经 提 过 的 ， 混 合 VSAN 配 置 中 的 写 缓 仓 提升 了 
写 的 性 能 ， 因 为 写 操作 不 需要 直接 写 入 由 磁盘 组 成 的 容量 层 ， 从 而 改进 了 延迟 值 。 在 全 闪存 VSAN 中 ， 写 缓存 的 目的 是 增加 耐久 
度 。 全 闪存 VSAN 的 设计 目标 是 将 高 耐久 度 的 闪存 设 备用 作 缓 存 层 ， 让 它们 来 处 理 大 多 数 的 |/O。 这 使 得 容量 层 可 以 不 需要 和 绥 


冲 层 一 样 处 理 大 量 的 写 操 作 ， 从 而 可 以 使 用 较 低 配置 的 闪存 设备 。 


即使 如 此 ， 全 闪存 配置 的 写 操作 仍然 和 混合 配置 非常 相似 ,仍然 是 只 有 当 数 据 块 被 写 入 到 所 有 副本 的 写 缓存 中 时 ， 写 才 会 被 
确认 。 


5.5.7 将 写 操作 回 写 入 磁盘 


来 目 于 VSAN 中 虚拟 机 的 客户 操作 系统 和 应 用 程序 的 写 入 的 数据 随 着 时 间 的 推移 会 慢 慢 在 内 仔 层 上 累积 起 来 。 在 混合 VSAN 
配置 中 (也 束 是 说 配置 使 用 闪存 设备 作为 缓冲 层 而 将 磁盘 作为 容量 层 ) , VSANSKRIFRESEUATSIRBUEHERTE GE EPIS 5$ FHB AA 
据 按 照 地 址 顺序 “站 刷 ” 进 磁盘 中 。SSD 中 的 写 缓存 被 分 割 成 大 量 的 “贮存 区 ” (bucket) 。 数 据 块 在 写 入 的 时 候 以 逻辑 块 地 
HF (LBA) 增 大 的 顺序 分 配给 这 些 迪 存 区 。 当 回 写 友 生 的 时 候 ， 可 能 因为 资源 的 限制 ， 最 老 的 贮存 区 内 的 数据 会 被 先 回 写 。 


VSAN 通 过 局 用 磁盘 写 缓存 来 最 大 限度 地 优化 性 能 。 不 过 写 缓存 中 的 数据 仅仅 在 数据 从 SSD 中 丢弃 之 前 被 站 刷 进 磁盘 。 如 前 
面 所 提 及 的 ， 回 写 时 VSAN 会 考虑 |/O 的 位 置 。 按 照 迪 存 区 为 单位 囚 积 起 来 的 数据 给 磁盘 提供 了 一 个 顺序 的 (物理 位 置 上 邻近 
的 ) 工作 负载 。 换 而 言 之 ， 它 靠 把 逻辑 块 地 址 邻近 的 数据 块 组 合 在 一 起 回 写 入 磁盘 来 提升 性 能 。 事 实 上 ， 邻 近 原 则 即使 是 对 于 写 
入 全 闪存 VSAN 配 置 容量 层 中 的 闪存 设备 也 能 够 提升 性 能 。 


用 于 这 个 操作 的 探索 算法 是 成 熟 的 ， 它 考虑 了 很 多 参数 ， 例 如 进入 1/O 的 速率 、 队 列 、 磁 盘 利 用 率 和 最 优 的 批 次 (optimal 
batching) 。 这 是 一 个 能 进行 目 我 调整 的 算法 ， 它 决定 了 SSD 回 写 到 磁盘 的 频率 。 


5.5.8 ”去 重 与 压缩 


VSAN 6.2 中 加 入 了 2 种 新 的 数据 简化 特性 : 去 重 (deduplication) 和 压缩 (compression) 。 当 这 2 个 特性 在 群集 层面 启 
用 时 ，VSAN 会 试图 在 把 数据 块 回 写 到 容量 层 忆 前 对 每 个 块 进行 去 重 并 压缩 。 这 2 个 特性 仅 人 存在 于 全 闪存 VSAN 中 。 压 缩 和 去 重 
不 能 分 开启 用 ， 要 么 一 起 开启 要 么 一 起 关闭 。 去 重 和 压缩 作用 于 磁盘 组 层面 上 。 换 名 话说 ， 只 有 部 署 在 同一 个 磁盘 组 上 的 对 象 才 
可 以 利用 这 些 特性 来 节省 空间 。 如 果 完 全 相同 的 2 台 虚 拟 机 被 部 署 企 了 不 同 的 磁盘 组 上 ， 即 使 数据 块 完 全 相同 也 不 会 有 去 重 友 
生 。 然 而 ， 去 重 和 压缩 特性 是 群集 范围 的 特性 ， 要 么 开启 要 么 关闭 ， 你 无 法 选择 对 某 一 个 虚拟 机 或 某 一 个 磁盘 组 来 开启 这 2 个 特 
tt. 


对 于 部 署 在 同一 个 磁盘 组 上 的 组 件 ， 如 果 开启 了 去 重 和 压缩 ， 那 么 去 重 将 会 在 4KB 数 据 块 的 粒度 上 实现 。 磁 盘 组 上 只 会 保留 
那个 4KB 数 据 块 的 一 个 拷贝 而 其 他 所 有 重复 的 数据 块 都 会 被 清除 ， 如 图 5-11 所 示 。 
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图 5-11 ”数据 块 去 重 


去 重 的 过 程 在 数据 块 从 缓存 层 回 写 入 容量 层 的 时 候 友 生 ， 并 使 用 哈 希 表 来 跟 踊 已 去 重 的 数据 块 。 去 重 过 的 数据 块 和 哈 希 表 的 
元 数据 散布 在 组 成 此 磁盘 组 的 容量 设备 中 。 





同一 磁盘 组 内 不 同 的 组 件 间 的 去 重 并 没有 什么 不 同 
VMDK 对 和 象 或 快照 增 量 对 象 上 。 


数据 块 去 重 可 能 发 生 在 虚拟 机 主页 名 字 空 间 、 虚 拟 机 交换 文件 、 


如 果 一 个 磁盘 组 的 容量 快 被 填 满 , VSAN 会 检查 那些 去 重 过 的 组 件 的 构成 ， 并 将 那些 会 对 磁盘 组 容量 产生 最 大 变化 的 数据 块 


移 走 。 
不 过 请 注意 ， 如 果 去 重 和 压缩 被 启用， 那么 磁盘 组 中 的 单个 设备 故障 会 使 得 整个 磁盘 组 显示 为 不 健康 状态 。 


一 旦 数据 块 被 去 重 ，VSAN 会 试图 将 那个 4KB 的 数据 块 压缩 到 2KB 或 更 小 。 如 果 VSAN 可 以 做 到 将 那个 数据 块 压 缩 到 小 于 等 
于 2KB， 它 将 会 保留 那个 压缩 过 的 数据 块 ， 否 则 会 保留 未 压缩 过 的 数据 块 。 


如 图 5-12 所 示 ， 整 个 过 程 相 对 简 备 明了 。 第 1 步 ， 虚 拟 机 将 数据 写 入 VSAN 的 缓存 层 。 当 数据 变 “ 冷 ”需要 被 回 写 的 时 
候 ，VSAN 将 这 些 数据 块 读 入 内 存 (第 2 步 ) 。 它 将 会 计算 哈 希 值 ， 清 除 挥 重复 的 块 ， 并 将 剩余 的 数据 块 进行 压缩 ， 最 后 写 入 容 
量 层 (第 3 步 ) 。 
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图 5-12 ”去 重 和 压缩 过 程 


写 给 有 兴趣 的 读者 : VSAN 现 在 使 用 SHA1 作 为 去 重 哈 希 算法 ， 并 使 用 LZ4 算 法 来 压缩 。 当 然 这 些 在 将 来 的 版 本 可 能 会 变 。 


5.5.9 ”数据 本 地 化 


一 个 常见 的 问题 是 : 需要 数据 本 地 化 么 ? 缓存 需要 和 虚拟 机 保持 在 同一 台 主 机 上 吗 ? 每 当 vSphere DRS 因 为 计算 资源 的 不 
平衡 而 迁移 虚拟 机 的 时 候 ， 该 虚拟 机 的 缓存 以 及 VMDK 和 存储 对 象 需要 和 虚拟 机 一 起 移动 吗 ? 对 于 VSAN 6.2 之 前 版 本 中 标准 的 
VSAN 部 署 来 说 ， 答 案 是 人 否定 的 ，VSAN 不 人 存在 数据 本 地 化 的 概念 。 然 而 ， 目 VSAN 6.2 起 ,一 些 变化 加 入 到 了 架构 中 : 出 现 了 不 
同 的 层面 的 缓存。 让 我 们 先 列 出 这 些 缓存 类 型 ， 骨 来 解释 哪些 地 方 适用 于 “本 地 化 ”而 又 有 哪些 是 不 适用 的 。 


` 基于 闪存 的 写 缓存 
. 基于 闪存 的 读 缓冲 (混合 模式 中 ) 
` 基于 内 存 的 读 缓冲 


对 于 基于 闪存 的 绥 存 来 说 不 存在 本 地 化 原则 。 


原因 很 简单 : 考虑 到 读 |/O 网 络 传输 最 多 只 有 一 跳 (one hop) ， 万 兆 以 太 了 网 5 起 的 延迟 比 起 其 他 延迟 〈 例 如 闪存 延迟 长 全 
是 内 核 延 迟 ) 小 到 可 以 忽略 不 计 ， 而 把 数据 迁 来 迁 去 市 来 的 好 处 远 远 抵 不 上 其 耗费 的 成 本 。 请 特别 考虑 一 下 这 样 的 事实 : 默认 的 
vSphere DRS 最 小 间隔 是 每 5 分 钟 束 要 运行 一 次 ， 这 可 能 导致 虚拟 机 每 5 分 钟 束 会 迁移 一 次 。 考 虑 到 闪存 的 成 本 和 基于 闪存 的 组 
存 的 大 小 ， 将 基于 闪存 的 绥 存 层 中 的 数据 移 来 移 去 实在 是 很 不 经 济 。 所 以 VSAN 不 会 这 么 做 ， 而 是 把 注意 力 集中 在 对 存储 资源 的 
负载 均衡 上 ， 将 它们 用 最 高 效 和 最 优化 的 方法 分 布 到 群集 中 去 ， 因 为 这 对 VSAN 才 是 更 有 收益 和 成 本 有 效 的 。 


话 又 说 回来 ，VSAN 版 本 6.2 还 有 一 个 小 小 的 内 存 读 缓存 (in-memory read cache) 。 小 在 这 里 的 意思 是 主机 内 存 容量 的 
0.4%， 且 上 限 为 每 台 主 机 1GB。 这 个 内 存 读 缓存 是 一 个 客户 端的 缓存 ， 意 思 就 是 虚拟 机 的 数据 块 被 缓存 在 虚拟 机 所 在 主机 的 内 
仔 中 。 当 虚拟 机 迁移 时 ， 因 为 客户 端 缓存 不 再 有 效 ， 所 以 缓存 需要 被 重新 “激活 ”。 注 意 ， 尽 管 如 此 ， 大 多 数 情 况 下 热 数 据 已 经 
仔 在 于 闪存 读 取 缓存 或 写 缓存 层 中 ， 因 此 对 性 能 的 影响 很 低 。 


如 果 由 于 特别 的 要 求 必须 提供 某 种 形式 的 数据 本 地 化 ， 我 可 以 告诉 你 VSAN 可 以 和 CBRC (用 于 VMware View 的 内 存 读 绥 
F) 集成 ， 因 此 你 可 以 局 用 之 ， 而 完全 不 需要 更 改 任 何 VSAN 的 配置 。 注 意 ，CBRC 不 需要 在 VSAN 数 据 存 储 上 创建 任何 特殊 的 
对 象 或 组 件 ，CBRC 摘 要 仓储 在 虚拟 机 主页 的 名 字 空 间 对 象 中 。 


5.5.10 VSAN 延 伸 群 集中 的 数据 本 地 化 


关于 数据 本 地 化 的 处 理 有 个 特别 值得 一 提 的 地 方 ， 就 是 在 考虑 VSAN 延 伸 群 集 部 署 的 时 候 。VSAN 延 伸 群 集 是 在 VSAN 6.15| 
入 的 ， 它 允许 VSAN 群 集中 的 主机 分 布 在 地 理 上 分 散 的 不 同 站 点 。 在 VSAN 延 伸 群 集中 ， 数 据 的 一 个 镜像 位 于 站 点 1 而 另 一 个 镜 
像 位 于 站 点 2 (目前 VSAN 延 伸 群 集 只 支持 RAID-1) 。 之 前 我 们 提起 过 VSAN 从 镜像 读 取 数据 时 及 用 轮 询 策 略 ， 这 对 于 VSAN 延 
伸 群 集 来 说 是 不 合适 的 ， 因 为 这 样 的 话 50% 的 读 束 要 从 远 端 的 站 点 传输 过 来 。 由 于 VMware 在 站 点 间 人 允许 的 延迟 最 高 可 以 达到 
5ms， 这 会 对 虚拟 机 性 能 产生 负面 影响 。VSAN 现 在 不 再 继续 及 用 轮 询 和 块 含 移 算法 ， 而 是 可 以 智能 地 找 出 延伸 群集 中 虚拟 机 所 
在 的 站 点 ， 并 更 改 读 算 去， 使 得 100% 的 读 都 从 本 地 站 点 的 镜像 副本 中 获取 ， 这 意味 着 在 稳定 运行 状态 中 不 会 有 跨 链 路 的 读 友 
生 。 这 还 意味 着 所 有 的 缓存 都 位 于 本 地 站 点 ， 或 者 说 甚至 是 位 于 使 用 了 内 存 缓存 的 本 地 主机 上 。 由 于 读 不 骨 需 要 通过 跨 站 点 的 链 
路 ， 从 而 避免 了 额外 的 延迟 。 注 意 ， 这 不 是 基于 每 台 主 机 的 读本 地 化 ， 而 是 基于 站 点 的 真正 的 本 地 化 。 在 同一 个 站 点 ， 虚 拟 机 的 
计算 部 分 可 以 位 于 任何 ESXi 主 机 上 ， 而 其 本 地 数据 对 象 可 以 位 于 其 他 任何 FSXi 主 机 上 。 


5.6 FARR] EE 


从 本 书 的 介绍 中 ， 你 已 经 知道 基于 存储 策略 的 管理 (SPBM) 在 VMware 软 件 定 义 的 存储 的 愿景 中 扮演 着 非常 重要 的 角色 ，。 
第 4 草 覆 蓄 了 和 VSAN 结 合 在 一 起 的 SPBM 的 基础 知识 ， 并 讲述 了 管理 员 如 何 使 用 SPBM 来 为 虚拟 机 定义 需求 组 合 ， 更 具体 地 说 ， 
它 定 义 了 用 于 虚拟 机 上 运行 着 的 应 用 程序 的 需求 组 合 。 这 些 需 求 组 合 被 推送 到 存储 层 ， 随 后 存储 层 会 检查 这 个 虚拟 机 的 存储 对 象 
是 否 可 以 被 以 这 个 需求 组 合 的 定义 来 实例 化 。 例 如 ， 是 否 有 足够 的 物理 硬盘 来 满足 策略 中 定义 过 的 对 条 市 冤 度 的 要 求 ? 或 者 群集 
中 是 否 有 足够 的 主机 来 满足 允许 的 故障 数 的 要 求 ? 如 果 这 些 需 求 可 以 满足 ， 那 么 此 VSAN 数 据 存 储 被 认为 是 匹配 资源 ， 并 会 在 置 
备 同 导 程 序 中 标注 出 来 。 之 后 ， 当 虚拟 机 部 署 的 时 候 ， 管 理 员 可 以 在 其 存储 的 ummary (概要 ) 窗口 检查 虚拟 机 是 否 合 规 。 如 
果 VSAN 数 据 仔 依 过 量 配 置 了 ， 或 者 无 法 满足 条 市 的 性 能 要 求 ， 融 不 会 在 置 备 向 导 中 显示 为 匹配 资源 。 如 果 即 使 有 资源 不 匹配 的 
情况 而 虚拟 机 仍然 部 署 到 了 这 个 VSAN 数 据 存储 上 (可 能 是 通过 强制 置 备 ) ， 那 么 虚拟 机 在 summary (概要 ) 窗口 融会 被 显 示 
为 不 合 规 。 如 果 群 集中 友 生 了 故障 使 得 策略 需求 (例如 FTT) 不 再 能 被 满足 ， 虚 拟 机 也 可 能 显示 为 不 合 规 。 


概括 一 下 ，SPBM 基 于 放置 在 虚拟 机 存储 策略 中 的 要 求 ， 为 传统 环境 中 的 虚拟 机 选择 合适 的 数据 存储 提供 了 一 种 目 动 化 的 策 
略 驱动 的 机 制 。 在 一 个 启用 了 VSAN 的 环境 中 ，SPBM 决 定 了 虚拟 机 是 如 何 置 备 以 及 如 何 分 布 的 。 


让 我 们 再 进一步 看 看 基于 VSAN 的 基础 架构 中 的 SPBM 的 概念 。 


5.7 VSAN 的 功能 


本 书 介 绍 虚 拟 机 存储 策略 中 的 VSAN 功 能 。 这 些 功能 在 群集 配置 成 功 时 通过 VSAN 数 据 存储 的 VASA 提 供 程序 展现 出 来 ， 特 
别 要 提 的 是 可 用 性 和 性 能 策略 可 以 针对 每 个 对 象 分 别 进行 设置 。 我 们 特地 没有 说 虚拟 机 ， 这 是 因为 策略 可 以 在 每 块 虚拟 磁盘 的 粒 
度 上 进行 配置 。 


如 果 你 对 于 这 些 功能 进行 了 过 量 配置 (也 束 是 说 ， 在 策略 中 配置 的 能 力 不 能 锐 VSAN 数 据 存 储 所 满足 ) ，VSAN 数 据 存储 丈 
不 再 会 在 置 备 时 显示 成 为 一 个 匹配 的 资源 ， 并 且 虚 拟 机 会 在 Summary (概要 ) 页 中 显示 为 noncompliant (不 合 规 ) ， 即 使 它 
RYBA E. 


在 谈 到 VSAN 功 能 的 主题 时 ， 我 们 会 再 次 深入 地 对 它们 进行 探究 。 


5.7.1 策略 设置 : 允许 的 故障 娄 


第 4 章 我 们 曾 讨论 过 哪些 虚拟 机 存储 策略 会 影响 虚拟 机 存储 对 象 ， 现 在 让 我 们 深入 人 研究 允许 的 故障 数 (缩写 为 FTT) 的 细 
， 这 可 能 是 VSAN 提 供 的 功能 里 面 最 常用 的 。 


di 


这 个 功能 在 存储 对 象 上 设置 一 个 条 件 ， 要 求 其 必须 能 容忍 至 少 n 个 故障 (这 里 n 指 的 是 群集 中 同时 发 生 的 故障 数 ， 包 括 主 
机 、 网 络 或 磁盘 故障 ) ， 还 能 同时 保证 存储 对 象 的 可 用 性 ， 从 而 使 得 虚拟 机 可 以 无 中 断 地 持续 运行 ,或 ( 因 故 障 类 型 不 同 ) 被 
vSphere HA 重启 。 如 果 虚 拟 机 存储 策略 中 配置 了 这 个 属性 ， 且 配置 中 选择 了 RAID-1 而 不 是 RAID-5 或 RAID-6， 那 么 说 明和 存储 对 


象 必须 全 少 包 含 n+ 1 个 副本 。 


注意 ， 只 有 当 虚 拟 机 的 存储 对 象 可 用 时 ，VSAN 数 据 存储 上 的 虚拟 机 才能 被 访问 。 让 我 们 来 回顾 一 下 曾经 介绍 过 的 一 些 概 
念 : VSAN 数 据 存储 上 的 虚拟 机 拥有 很 多 存储 对 象 ， 包 括 虚 拟 机 主页 名 字 空 间 、 虚 拟 机 交换 文件 、VMDK、 快 照 增 量 
(snapshot delta) 以 及 快照 内 存 。 为 了 保证 虚拟 机 持续 可 访问 ,组 成 虚拟 机 存储 对 象 的 组 件 必 须 至 少 有 50% 可 用 。 


让 我 们 用 一 个 简单 的 例子 来 说 明 。 如 果 你 部 署 的 虚拟 机 的 唯一 的 策略 设置 是 允许 的 故障 数 等 于 1 (上 暗示 RAID-1 配 
B) ，VMDK 和 仓储 对 象 的 部 署 情况 可 能 如 图 ?-13 所 示 。 


| Physical Disk Placement | Compliance Failures 
50GB-VM - Hard disk 1 : Physical Disk Placement 


k— "E 


1A Component State Host | SSD Disk Name 


B] Active 10.20.177.17 Local ATA Disk (naa.500151... | 52871f6f-d28a-d243-6 
Bj Active B 10.20.177.19 Local ATA Disk (naa.500151... | 5201336c-8o4b-3bee- 
B) Active B 10.20.177.18 





图 5-13 FTT=1 时 磁盘 放置 的 简单 例子 


人 存储 对 象 是 由 组 件 构成 的 ， 理 解 这 一 点 很 重要 。 组 成 RAID-1 镜 像 仔 储 对 象 的 两 个 组 件 ， 一 个 位 于 host 17， 另 一 个 位 于 host 
19， 正 是 这 些 镜 像 了 的 数据 副本 使 得 容错 成 为 可 能 。 那 么 ， 位 于 host 18 上 的 见证 对 象 是 什么 呢 ? 咽 ， 还 记得 必须 要 有 50%L 以 上 
的 组 件 (投票 ) 可 用 么 ?在 这 个 例子 中 ， 如 果 没 有 见证 组 件 ， 当 host 17 友 生 故 障 时 ， 你 就 失去 了 1 个 组 件 (5090) 。 即 使 此 时 
你 仍然 还 有 一 个 有 效 的 副本 ， 超 过 ?0% 的 组 件 (投票 ) 将 不 再 可 用 ， 这 束 是 我 们 需要 见证 盘 的 原因 。 在 黎 脑 (split-brain) 情况 
下 ， 见 证 还 被 用 来 判断 谁 仍然 位 于 群集 中 。 


见证 对 象 本 身 实质 上 就 是 一 些 元 数据 ， 大 小 仅 有 约 4MB， 所 占 空间 不 多 。 但 你 创建 的 存储 对 象 的 组 件 越 多 ， 额 外 的 见证 对 
象 也 越 多 ， 如 图 5-14 所 示 。 这 完全 取决 于 RAID-1 配 置 以 及 VSAN 如 何 决定 对 象 的 放置 。 


Physical Disk Placement | Compliance Failures 
300GB-OSR-SW2-VM - Hard disk 1 : Physical Disk Placement 


Be— y 
三 
SSD Disk Name 


10.20.177.18 Local ATA Disk (naa.500151... 
10.20.177.19 Local ATA Disk (naa.500151... 
10.20.177.19 Local ATA Disk (naa.500151... 





图 5-14 可 能 需要 创建 额外 的 见证 


现在 你 理解 了 见证 的 概念 ， 下 一 个 问题 是 : 要 容忍 n 个 故障 ，RAID-1 的 情况 下 VSAN 群 集 需 要 多 少 台 主 机 ” 表 5-1 给 出 了 答 


W 


表 5-1 允许 的 故障 数 、 副 本 数 和 需要 的 主机 数 之 间 的 关系 


允许 的 故障 数 (n) VSAN 群集 中 需要 的 主机 数 ( 2n + 1 ) 
s 
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一 个 三 节点 的 群集 上 将 允许 的 故障 数 设 置 为 2。 


[D New Virtual Machine 


Cannot complete file creation operation. 
The policy requires 5 hosts contributing storage, only found 3 in the cluster. 
Failed to create object. 





图 5-15 “允许 的 故障 数 设 置 需要 特定 数量 的 主机 支持 


5.7.2 ”人 允 计 的 故障 数 的 最 佳 实践 


对 于 RAID-1 配 置 ， 人 允许 的 故障 数 的 推荐 值 是 1， 除 非 你 有 特别 强 的 可 用 性 要 求 希望 虚拟 机 可 以 承受 超过 1 个 的 故障 。 注 意 ， 
增加 允许 的 故障 数 会 要 求 额外 的 磁盘 可 用 容量 ， 用 于 创建 额外 的 副本 。 


VSAN 有 多 种 管理 流程 来 警告 和 提供 保护 ， 以 免 因 意外 移 除 主 机 造成 VSAN 无 法 满足 指定 的 虚拟 机 对 人 允许 的 故障 数 的 要 求 ， 
包括 在 虚拟 机 Summary 页 显示 的 不 合 规 状态 (的 警告 ) 。 

问题 来 了 : VSAN 群 集 最 少 需要 几 台 主机 ? VSAN 6.1 引 入 了 一 种 新 的 用 于 远程 办 公 室 /分 支 办 公 室 解决 方案 的 2 节点 配置 ， 
但 是 这 也 还 需要 一 个 见证 设备 。 如 果 我 们 暂时 去 掉 2 节 点 配置 ， 大 多 数 情 况 下 客户 会 需要 3 台 ESXi 主 机 来 部 署 VSAN。 然 而 当 你 需 
要 进行 系统 维护 并 且 想 在 维护 时 段 中 仍 能 保持 同样 的 可 用 性 水 平 的 时 候 怎 么 办 ? 

要 满足 允许 的 故障 数 为 1 的 策略 ， 任 何 时 候 都 需要 最 少 3 台 主 机 。 即 使 一 台 主 机 发 生 故 障 ， 你 仍 可 访问 数据 ， 因 为 3 台 主 机 具 
有 2 个 镜像 副本 和 一 个 见证 ， 你 总 是 可 以 具有 大 于 50% 的 可 用 组 件 (3:38) 。 但 是 当 你 如 图 5-16 所 示 将 其 中 的 一 台 置 于 维护 模式 
时 会 怎样 呢 ? 
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1 最 少 3 台 主 机 ， 但 是 在 维护 时 需要 多 少 呢 ? | 
= I 
图 5-16 VSAN 所 需 最 少 主 机 数 
当 剩 下 的 2 台 主 机 按照 预期 正常 运行 时 ， 所 有 虚拟 机 会 持续 运行 。 如 果 此 时 另 一 台 主 机 发 生 了 故障 或 被 置 于 维护 模式 ， 你 就 


会 遇 到 麻烦 。 此 时 剩 下 的 主机 上 的 虚拟 机 只 有 不 到 50% 的 组 件 了 ， 结 果 虚 拟 机 将 无 法 重启 (也 无 法 进行 任何 |/O 操 作 ) ， 因 为 此 
时 组 件 将 没有 属 主 。 


5.7.3 ”策略 设置 : ApoE 


二 常用 的 功能 非 每 个 对 象 的 磁盘 市 数 莫 属 ， 为 了 行文 更 顺畅 我 们 将 用 “条 市 宽度 ”来 指 代 。 首 先 要 讨论 的 是 条 市 化 对 
VSAN 环 境 下 的 虚拟 机 有 什么 好 处 ?我 们 提 及 这 个 问题 的 原因 是 你 需要 了 解 VSAN 中 所 有 的 MO 会 移 通过 由 闪存 构成 的 缓 仔 层 。 
更 准确 地 癌 ， 所 有 的 写 都 会 先进 入 写 缓 仔 ， 而 对 混合 配置 来 咒 ， 所 有 的 读 也 将 尽 可 能 地 从 读 缓冲 区 中 提供 ， 不 过 如 果 数 据 不 企 读 


缓冲 区 中 ( 读 缓 站 未 命中 ) 则 读 取 将 不 得 不 由 磁盘 提供 服务 。 
那么 增加 条 市 宽度 有 什么 用 呢 ? 


“ 如 果 虚 拟 机 存储 对 象 被 条 这 化 分 布 到 不 同 的 磁 副 组 ， 或 被 条 这 化 到 舅 一 台 主 机 的 容量 设备 上 ， 有 可 能 提高 虚拟 机 存储 对 象 
的 写 性 能 。 


| 当 读 缓冲 未 能 命中 时 《混合 配置 ) o 

数据 块 从 缓存 层 的 闪存 设备 批量 回 写 到 磁盘 上 时 可 能 会 有 性 能 提升 (混合 配置 ) 。 
让 我 们 再 详细 解释 一 下 。 
性 能 : 写 


因为 所 有 的 写 都 会 先进 入 缓存 层 (BEF) ， 增 加 条 市 锅 度 可 能 对 虚拟 机 IO 性 能 有 提升 ， 也 可 能 没有 。 因 为 无 法 保证 新 的 
条 市 会 使 用 不 同 的 缓存 层 设备 。 新 的 条 市 可 能 会 位 于 同一 个 磁盘 组 的 另外 一 块 容量 设备 上 ， 因 此 用 的 还 是 同一 个 缓存 层 。 这 对 全 
内 存 配置 和 混合 配置 都 适用 。 


条 带 的 情况 分 三 种 : 
: 跨 主 机 条 市 : 使 用 不 同 的 缓存 层 闪 存 设备 ， 性 能 获得 提升 
. 跨 磁 盘 组 条 市 : 使 用 不 同 的 缓存 层 闪 存 设备 ， 性 能 获得 提升 
- 同一 磁盘 组 内 的 条 市 : 使 用 同一 个 缓存 层 闪存 设备 ， 性 能 没有 提升 


在 当前 版 本 中 ， 除 了 VSAN 延 伸 群集 ，VSAN 不 具备 数据 重力 [1] (data gravity) 或 本 地 性 [2 (locality) 作为 参照 ， 因 此 不 
能 指定 存储 对 象 的 特定 组 件 放置 的 位 置 ， 这 是 由 VSAN 对 象 放置 算法 决定 的 ， 它 会 试图 通过 一 种 平衡 的 方式 将 存储 组 件 分 散 到 群 
集中 所 有 节点 的 磁盘 上 去 。 


因此 ， 结 论 惑 是 增加 条 市 宽度 可 能 不 会 对 虚拟 机 MO 市 来 任何 写 性 能 的 提升 ， 但 是 潜在 的 性 能 提升 还 是 有 可 能 的 。 
性 能 : 读 缓冲 未 命中 〈 混 合 配置 ) 


现在 来 看 看 增加 条 市 锅 度 的 下 一 条 理由 。 这 有 可 能 是 这 么 做 的 最 主要 的 原因 。 当 虚拟 机 的 数据 集合 大 大， 或 者 企 工 作 负 载 随 
机 程度 非常 高 的 情况 下 ， 读 组 ;中 未 命中 率 (市 来 的 压力 ) 超过 了 单 块 磁盘 (混合 配置 ) 的 吞吐 率 ， 那 么 在 读 取 时 使 用 多 块 磁盘 残 
可 以 市 来 好 处 。 这 可 以 通过 设置 条 市 宽度 来 实现 。 


从 读 取 的 角度 看 ， 当 友 生 很 多 读 缓冲 未 命中 时 ， 增 加 条 市 宽度 会 有 所 帮助 。 例 如 ， 一 台 虚 拟 机 每 秒 有 2000 次 读 操 作 ， 它 的 
读 命中 率 是 90%， 那 么 残 有 200 个 读 操 作 需 要 由 磁盘 来 提供 。 这 种 情况 下 ， 因 为 单 块 磁盘 只 能 提供 120IOPS3， 无 法 满足 上 所 有 的 读 
操作 ， 所 以 此 时 增加 条 市 宽度 会 有 帮助 ， 可 以 满足 虚拟 机 对 1/O 的 要 求 。 


如 何 判断 是 否 存在 读 缓冲 未 命中 ? 在 VSAN 的 早期 版 本 中 ， 这 个 信息 无 法 从 vSphere Web Client 中 获取 。 不 过 RVC VSAN 
Observer 工具 提供 了 很 多 详细 的 信息 ， 包 括 读 缓冲 命中 率 (如 图 5-17 所 示 ) 。 在 这 个 例子 里 ， 读 缓冲 命中 率 是 100%， 意 味 着 没 
必要 增加 条 带宽 度 ， 因 为 所 有 I/O 都 是 由 闪存 提供 的 。 
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Host disk-layer aggregate stats: Full graphs 
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图 5-17 命中 认为 100%，Evictions 为 0 


VSAN 6.2 引 入 了 一 种 新 的 性 能 服务 ， 将 VSAN 群 集 的 性 能 信息 显示 在 vSphere Web 客 户 端 中 。 现 在 你 不 再 需要 启动 诸如 
RVC 这 类 的 工具 来 查看 此 类 信息 了 。 在 图 5-18 中 ， 读 缓冲 命中 率 为 0%。 要 么 这 是 一 个 非常 空闲 的 系统 ， 要 么 它 是 不 需要 读 缓存 
的 全 闪存 VSAN。 事 实 上 ， 它 两 者 皆 中 。 
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所 以 ， 当 VSAN 中 发 生 了 读 缓 冲 未 命中 的 情况 ，MO 会 部 分 由 磁盘 提供 ， 如 果 单 块 磁盘 不 足以 处 理 所 有 请 求 时 ， 增 加 条 带宽 
度 可 以 市 来 MO 性 能 的 提升 。RVC、VSAN observer 以 及 新 的 性 能 服务 将 在 第 10 章 详细 讨论 。 


性 能 : 缓 仔 层 回 写 


增加 条 带宽 度 的 最 后 一 个 理由 和 把 数据 块 从 缓存 回 写 到 磁盘 有 关 。 关 于 缓存 的 磁盘 回 写 有 个 重要 的 考量 因素 ; VSAN 上 运行 
的 工作 负载 到 底 是 何 种 类 型 的 ? 


举 个 例子 ， 如 果 你 正在 部 署 虚拟 桌面 并 且 有 几 百 台 庶 拟 机 ， 那 么 很 可 能 VSAN 的 磁盘 回 写 总 是 需要 用 到 容量 层 的 所 有 部 件 ， 
变更 条 市 冤 度 束 不 起 什么 作用 (因为 所 有 磁盘 已 经 都 在 用 了 ) 。 如 果 有 99 台 虚拟 机 大 多 数 时 候 只 有 读 操 作 而 没有 写 ， 那 么 回 写 
将 非常 少 ， 增 加 条 市 芝 度 几乎 没有 什么 用 。 不 过 ， 如 果 其 中 有 少量 虚拟 机 会 进行 大 量 的 写 操作 ， 并 触 友 很 多 回 写 动作 ， 那 么 对 这 


些 少量 虚拟 机 配置 更 大 的 条 带宽 度 将 市 来 回 写 阶段 的 可 预见 的 性 能 提升 。 


如 何 才 能 知道 缓存 层 已 有 大 量 数 据 块 需要 回 写 呢 ? 在 VSAN 早 期 版 本 中 你 需要 使 用 VSAN Observer 工 具 ， 它 在 vCenter 
Server 5.5 U1 或 更 新 的 版 本 中 提供 。VSAN Observer 工具 是 RVC 的 组 成 部 分 ， 图 5-19 所 示 的 截图 是 从 VSAN Disks (deep- 
dive) 视图 的 Device-level stats (设备 级 状态 ) 选项 中 获取 的 。 第 10 章 中 我 们 将 详细 讲述 RVC 和 VSAN Observer 工具 。 


VSAN Client (per-hosl ”VSAN Disks (per-hosl USANIDISKS (d6ep-dive) 


Device-level stats 


Latency WriteBuffer Fill 


SSD 
5201336c-8c4b-3bee-73739-93e226296106 
naa.50015178f35d87ac 
Full graphs 


图 5-19 VSAN Observer 工 具 写 缓存 信息 





随 着 VSAN 6.2 市 来 的 性 能 服务 ， 这 些 信息 现在 也 可 以 从 vSphere Web 客 户 新 中 看 见 了 。 图 5-20 (还 是 从 磁盘 组 视图 截取 
的 ) 显示 了 写 缓 存 空 采 的 百分比 。 


Disk Group 
Currently we only support IO stats for one disk group due to a known issue ofthe platform 


Disk Group Name 








Disk Group 
52629b86-0d60-0916-b065-4bd63cd4d893 - Performance Details 


Tine Range we) © 


Write Buffer Free Percentage (9 


12/4/2015 3:00 PM 12/4/2015 6-00 PM 12/4/2015 8-00 PM 12/5/2015 12:00 AM 12/5/2015 3:00 AM 12/5/2015 6:00 AM 12/5/2015 8-00 AM 12/5/2015 12:00 PM 


Capacity and Usage 9 
1.27 TB | 


652.06 GB I ————————————————————P 


0.008 中 上 


12/4/2015 3-00 PM 12/4/2015 6:00 PM 12/4/2015 9:00 PM 12/5/2015 12:00 AM 12/5/2015 3:00 AM 12/5/2015 6:00 AM 12/5/2015 9:00 AM 12/5/2015 12:00 PM 





B Capacity |i] UsedCapacity 图 Reserved Capacity 图 Read cache Size 图 write Butter Size 
Cache Disk De-stage Rate 9 


1.00 KB/s 


512.00 B/s | 


0.00 B/s 
12/4/2015 3:00 PM 12/4/2015 6:00 PM 12/4/2015 8-00 PM 12/5/2015 12:00 AM 12/5/2015 3:00 AM 12/5/2015 6:00 AM 12/5/2015 8:00 AM 12/5/2015 12:00 PM 


Bj Bytes De-stage from SSO |] ZeroBytes De-stage 





Congestions ©@ 


10 7 





图 5-20 ”通过 性 能 服务 显示 的 写 缓存 空闲 百 分 
[1] 数据 重力 这 一 概念 最 早 由 Dave McCrory 在 2010 年 提出 ， 指 的 是 Internet 上 的 数据 如 果 在 局 部 数量 巨大 的 话 ， 会 对 周边 的 
App/setvice 或 其 他 数据 产生 吸引 力 ， 就 好 像 宇宙 中 质量 重 的 天 体 对 其 他 天 体 产 生 吸 引力 一 样 一 一 也 就 是 重力 。 关 于 数据 重力 的 更 
进一步 阅读 请 参考 http://www.datagravity.org。 这 里 作者 的 意思 是 VSAN 的 数据 不 会 对 组 件 产生 吸引 力 ， 因 此 不 会 对 组 件 的 位 置 决 
定 产 生 任 何 影 响 。 译 者 注 
[2] Af JL A Mp 8 085 E 1g UU d VMDK ACRI MLER (CPU/ 内 存 ) 的 迁移 而 迁移 ， 即 不 一 定 在 虚拟 机 计算 资源 
的 “本 地 o 译 者 注 








5.7.4 在 策略 设置 中 未 指定 条 市 化 时 使 用 RAID-0 


在 Web 客 户 痛 可 以 看 见 组 件 的 放置 位 置 ， 如 果 经 单 观察 的 话 ， 或 许 你 已 经 友 现 VSAN 在 没有 特别 要 求 的 情况 下 已 经 为 VMDK 
创建 了 RAID-0 配 置 。 又 或 者 你 明明 指定 了 条 市 宽度 为 2， 但 是 却 观 察 到 创建 出 来 的 条 市 的 宽度 为 3。 当 空间 受 限 时 ，VSAN 会 以 
目 己 判断 部 得 合适 的 方式 来 分 折 (存储 ) 对 象 。 这 本 来 残 不 能 算是 条 市 化 ， 因 为 组 件 可 能 最 终 会 位 于 同一 个 物理 容量 设备 上 。 换 
而 言 之 ， 我 们 可 以 称 之 为 分 块 (chunking) 。VSAN 在 某 些 特定 场合 下 会 使 用 这 种 分 块 方法 (chunking method) ， 第 一 种 情 
况 残 是 当 一 个 虚拟 磁盘 大 于 任何 单 块 空 朵 空间 时 。 其 实 VSAN 隐 藏 了 这 样 的 事实 : 即使 主机 上 只 有 空间 较 小 的 几 个 容量 设备 ， 管 
理 员 仍 然 可 以 创建 非常 大 的 VMDK。 因 此 ， 即 使 在 虚拟 机 的 存储 策略 中 没有 设置 过 条 市 宽度 ， 大 的 VMDK 分 拆 为 多 个 组 件 的 情 
况 也 不 少见 。VSAN 会 在 虚拟 磁盘 (VMDK) 大 于 任 一 单个 容量 设备 时 使 用 分 块 万 法 。 


还 有 一 种 可 能 会 使 用 分 块 方法 的 情况 。 默 认 情 况 下 ， 如 果 一 个 对 象 的 大 小 超过 了 255GB (组 件 的 最 大 值 ) 那么 它 也 会 被 分 
拆 。 即 使 策略 中 没有 条 带 化 要 求 ， 一 个 对 象 也 可 能 显现 为 多 个 255GB 的 分 块 的 组 合 。 只 要 空闲 磁盘 空间 的 情况 使 得 VSAN 觉 得 分 
拆 是 有 益 的 ,分 拆 甚 至 可 能 友 生 在 对 象 还 没 达到 255GB 的 时 候 。 注 意 ， 即 使 分 拆 友 生 在 255GB 标 准 分 拆 点 并 不 意味 着 新 的 分 块 
会 放置 到 不 同 的 磁盘 上 。 事 实 上 ， 因 为 这 本 质 上 融 不 是 条 市 化 ， 多 个 分 块 仍然 可 能 逢 放置 在 同一 个 物理 容量 设备 上 。 取 决 于 总 体 
平衡 和 空 采 空间 ， 这 可 能 友 生 也 可 能 不 会 友 生 。 


如 果 容 量 设备 都 小 于 255GB， 那 么 分 块 国 值 可 以 通过 高 级 参数 VS9AN.ClomMaxCom-ponentSizeGB 来 更 改 。 (请 在 更 改 此 
ESXi 高 级 设置 之 前 咨询 VMware 技术 支持 或 参考 VSAN 官 方 文档 。 ) 

接 下 去 我 们 来 展示 一 些 我 们 做 过 的 测试 ， 或 许 能 把 问题 讲述 得 更 加 清楚 一 些 。 

测试 1 

我 们 在 一 个 由 多 个 136GB 磁 盘 所 组 成 的 混合 配置 的 VSAN 数 据 仓储 上 创建 了 一 个 150GB 的 虚拟 机 ， 并 设 定 了 多 许 的 故障 数 
(FTT) 为 1 的 策略 。 我 们 得 到 了 一 个 VMDK， 它 是 一 个 简单 的 RAID-1 配 置 ， 具 有 2 个 组 件 ， 每 个 副本 都 含有 1 个 组 件 (因此 没有 


RAID-0) 。 这 是 因为 虚拟 机 在 VSAN 数 据 存 储 上 默认 束 是 精简 置 备 的 ， 所 以 即使 我 们 创建 的 虚拟 机 是 150GB， 因 为 精简 置 备 的 
关系 ， 它 仍然 可 以 存在 于 一 个 136GB 的 磁盘 上 ， 如 图 5-21 所 示 。 


| Physical Disk Placement | Compliance Failures 
150GB-VM - Hard disk 1 : Physical Disk Placement 


1A ComponentState | Host SSD Disk Uuid 
v RAID 1 


Component lg] Active 10.20.177.17 Local ATA Disk (naa.500151... | 52871f6f-d28a-d243-6 
Component 国 Active 10.20.177.19 Local ATA Disk (naa.500151... | 5201336c-8c4b-3bee- 
Witness lj Active 10.20.177.18 Local ATA Disk (naa.500151... | 52637483-6029-c086- 





E » | 
i 4 items |3- 





图 5-21 简单 物理 磁盘 放置 单 见证 组 件 
测试 2 


在 同一 个 群集 中 ， 我 们 创建 的 虚拟 机 还 是 150GB， 策略 中 配置 了 FTT 为 1 以 及 对 象 空间 预 留 (OSR) 为 100%。 这 次 VMDK 还 


是 RAID-1 配 置 的 ， 但 是 每 个 副本 都 是 由 2 个 组 件 组 成 的 RAID-0。OSR 本 质 上 就 是 把 虚拟 机 配置 成 厚 置 备 。 因 为 我 们 要 保证 供给 
的 空间 ， 虚 拟 机 必须 至 少 扩展 到 2 块 磁盘 ， 因 此 用 到 了 条 市 化 。 
测试 3 


我 们 创建 了 一 个 300GB 的 虚拟 机 ， 策 略 设 置 了 FTT 为 1、OSR 为 100% 以 及 条 带宽 度 (SW) 为 2。 和 前 面 一 样 ， 我 们 的 配置 是 
一 个 虚拟 磁盘 的 RAID-1 镜 像 ， 不 过 这 次 每 个 副本 都 是 一 个 由 3 个 组 件 组 成 的 RAID-0。 这 个 配置 中 ， 即 使 SW 设 成 2，VMDK 要 求 
的 空间 仍然 太 大 了 ， 甚 至 超过 了 2 块 磁盘 能 提供 的 容量 ， 所 以 第 3 块 磁盘 必须 加 入 进来 ， 如 图 5-22 所 示 。 


Physical Disk Placement | Compliance Failures 
300GB-OSR-SW2-VM - Hard disk 1 : Physical Disk Placement 


SSD Disk Uuid 


10.20.177.18 Local ATA Disk (naa.500151... 
| 10.20.177.19 Local ATA Disk (naa.500151... 
| g 10.20.177.18 Local ATA Disk (naa.500151... 


B 10.20.177.17 Local ATA Disk (naa.500151... 
E 10.20.177.17 Local ATA Disk (naa.500151... 
10.20.177.17 Local ATA Disk (naa.500151... 
|] 10.20.177.19 Local ATA Disk (naa.500151... 
10.20.177.19 Local ATA Disk (naa.500151... 
目 10.20.177.18 Local ATA Disk (naa.500151... 














图 5-22 更 复杂 的 部 团 : 需要 多 个 见证 组 件 


可 以 得 出 结论 ， 即 使 策略 中 没有 特别 指明 条 市 这 度 ， 多 个 组 件 组 成 的 RAID-0 配 置 仍然 会 用 于 那些 比 单 块 磁盘 更 大 的 VMDK 
£E; 


5.7.5 PREASA 


VSAN 中 条 市 宽度 可 定义 的 最 大 值 是 12。 这 可 以 是 跨 同一 台 主 机 上 的 多 个 磁盘 ， 也 可 以 是 跨 主机 的 。 记 得 吗 ” 在 同时 定义 条 
市 宽度 (SW) 和 FTT ( 且 保 留 容 错 方 法 默认 值 “ 性 能 ”) 时 ， 人 至 少 要 有 SWx (FTT+1) 个 容量 设备 才能 满足 策略 的 要 求 (忽略 
存放 见证 组 件 所 需 的 额外 设备 ) 。 这 总 味 着 SW 和 FTT 的 数 信 越 大 ， 对 象 及 其 组 件 的 放置 束 越 复杂 。 虚 拟 机 存储 策略 的 每 个 对 象 
的 磁盘 市 数 这 个 设置 的 意思 是 每 个 镜像 中 条 市 所 跨 磁 盘 数 的 最 小 值 ， 如 果 帝 得 有 必要 ，V3SAN 会 增加 额外 的 条 市 。 


Rule-Set 1 
jell create your VM storage policy. 
| age policy will match datastores that satisfy any of the rule sets. 
* A rule set will match datastores that satisfy (7 — — 





Rules based | The number of HDDs across which each 
ME —— replica of a storage object is striped. A 
| "m | 4: value higher than 1 may result in better 
Number of disk stripes per object Q9 performance (for e.g. when flash read 
cache misses need to get serviced from 
HDD), but also results in higher use of 
system resources. Default value: 1, 
Maximum value: 12. 





图 5-23 ”每 个 对 象 的 磁盘 条 带 数 


图 5-23 显 示 的 是 一 个 虚拟 机 存储 策略 的 截图 ， 点 击 information 图 标 后 会 显示 更 多 的 细节 。 帮 助 窗口 中 的 HDD 代 表 着 硬盘 驱 
动 器 ， 也 就是 本 书 中 一 直 提 起 的 磁盘 。 当 然 ， 磁 盘 仅 用 于 混合 配置 ， 所 以 这 来 自 于 全 闪存 配置 友 布 之 前 的 VSAN 5.5, (Hii, É 
对 于 2 种 配置 都 是 一 样 的 。 注 意 ，RAID-5 和 RAID-6 也 可 以 同时 实现 RAID-0 条 市 宪 度 。 如 果 虚 拟 机 存储 策略 中 配置 了 条 市 这 度 且 
容错 方法 设 为 容量 ， 每 个 RAID-5 或 RAID-6 对 象 的 分 块 可 能 会 被 条 市 化 分 拆 到 多 个 容量 层 设备 上 。 


5.7.6 $E TAE BUEHREA 


fivmIBEzIHE), SIERvSpheretz TRES] :KByVSANRBESESCUUBSSWSR RES S ELE n] RHET RIBSSCHURU, BRETA? 图 5- 
24 是 从 VSAN 的 第 一 个 友 布 版 本 中 截取 的 ， 显 示 的 束 是 其 导致 的 报错 信息 。 基 本 上 ， 虚 拟 机 的 部 署 不 会 成 功 ， 并 报错 说 没有 足够 
数量 的 容量 设备 来 满足 定义 的 策略 的 要 求 。 其 他 版 本 的 VSAN 也 会 显示 类 似 的 报错 。 


Task Dotalls (x) | 
Create virtual machine 


Status: File [vsanDatastore] 07194252-2650-1173-86cb-10c14e253a92/VM*12SW.vmdk was not found ^ Queued Fo A C 
initiator: root Start Time: 
Target: [a COR, VSAN 

Server:  pmi-vcva-vsan-cor-1 


Error stack: 


L» The policy requires 2 replicas with 12 disks each with 3579838464 bytes free each. Only found 0 such disks. 





Related events: 


Assigned new BIOS UUID (4239eb24d-00fa-490f-2bc5- i VM+12SW+OSR+FTT 
|] September 25, 2013 3:59:42 PM GMT+... 


ce941152edbb) to VM*«125W on 10.20.177.19 in COR. VSAN v Create virtual machine 


New MAC address (00:50:56 :59:51:4e) assigned to adapter VM [a COR. VSAN 


Network for VM+125W 
Qj September 25, 2013 3:59:42 PM GMT*.. Creating VM *125W on host 10.20.177.19 in COR. VSAN 


| ^" 
* T 


à | September 25, 2013 3:59:42 PM GMT+... 





Ha , 
条 市 本 市 : 


SN 块 大 小 


在 探 寺 3W 问 题 之 后 单 航 提起 的 一 个 问 


中 定义 条 市 客 度 时 ， 其 组 件 容 量 增 大 的 步 进 增 量 是 


分 段 1 会 仔 入 esxi-02， 当 下 一 个 1MB 写 入 的 时 候 ， 


5.7.8 ”条 市 宽度 最 佳 实践 
读 过 本 节 之 后 ， 你 应 该 对 增加 条 带 


能 地 处 理 对 象 放置 ， 我 们 建议 不 要 去 增加 
读 缓 冲 不 能 合 中 或 磁盘 回 写 的 性 能 问题 。 





"— — a a A å á á MO AA ADU EDU A — —— 


VSAN 默认 是 精简 置 备 的 ， 条 市 以 1MB BH cT 


图 5-24 任务 失败 : 仅 找 到 0 个 类 似 磁 盘 


题 是 : 条 市 的 数据 分 段 (segment) 是 否 是 特定 的 ? 换 句 话 襄 ， 当 在 VSAN 和 存储 策略 
多 大 的 块 ?VSAN 使 用 的 条 带 分 段 大 小 是 1MB， 如 图 5-25 所 示 ，1MB 的 条 带 
1MB 的 条 带 分 段 2 会 存 入 esxi-03， 以 此 类 推 ，。 


寓 度 可 能 会 导致 组 件 放置 的 复杂 程度 理解 得 更 为 透彻 了 。VSAN 具 有 很 多 和 目 有 的 逻辑 来 智 
条 市 冤 度 ， 除 非 你 已 经 明确 找 人 天 了 (可 由 增加 


条 市 宽度 解决 的 ) 严重 的 性 能 问题 ， 诸 如 









SSD 
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图 5-25 ”VSAN1I/O 流 : 条 带 化 以 LIMB 为 增 量 


要 知道 所 有 I/O 都 要 先 经 过 | 闪存 层 。 所 有 写 操作 先 要 写 入 闪存， 然后 才 会 批量 回 写 到 磁盘 (混合 配置 ) 上 。 对 于 读 来 说 ， 操 
作 会 先 试 图 访问 内 存 层 ， 如 果 读 缓冲 未 能 命中 ， 那 么 数据 块 将 从 磁盘 (混合 配置 ) 或 从 闪存 容量 设置 (全 闪存 配置 ) 读 取 ， 


而 ， 如 果 所 有 的 读 请 求 都 能 由 缓 仔 层 来 满足 ， 残 完全 没 必 要 增加 条 市 宽度 ， 因 为 这 不 会 市 来 任何 好 处 。 因 此 事先 做 好 算术 并 合理 
配置 基于 闪存 的 缓 仔 大 小 ， 会 比 事后 增加 条 市 宽度 更 为 有 效 ! 


5.7.9 ”策略 设置 : 内 仔 读 取 缓 仔 预 贸 


这 个 策略 设置 仪 适 用 于 混合 配置 ， 它 是 配置 在 缓存 层 上 为 存储 对 象 读 绥 存 预 留 的 闪存 容量 的 大 小 ， 其 值 是 存储 对 象 钦 辑 大 小 
的 百分比 ， 这 个 百分比 数值 可 以 配置 到 小 数 点 后 4 位 。 如 此 精细 的 粒度 是 有 必要 的 ， 这 样 管 理 员 可 以 在 小 于 1% 的 尺度 上 进行 配 
置 。 拿 1TB 的 磁盘 为 例 ， 如 果 我 们 配置 的 读 取 缓存 了 预 留 的 增 量 只 能 以 1% 作 为 单位 ， 束 意味 着 每 次 增加 缓存 了 预 留 都 至 少 增加 
10GB， 这 在 大 多 数 情 况 下 对 单 台 虚拟 机 来 说 都 大 多 了 。 


注意 ， 要 使 用 缓存 是 无 须 设置 此 预 留 值 的。 这 个 预 留 值 应 该 被 设 为 0， 即 所 有 虚拟 机 平等 地 共享 缓存， 除非 你 正 试图 为 某 个 
或 某 一 组 特定 的 虚拟 机 解决 一 个 现实 的 性 能 问题 。 


对 于 此 资源 (缓存 资源 ) 是 没有 那 种 vSphere 管 理 员 所 熟悉 的 和 其 他 特性 类 似 的 按 比例 的 份额 机 制 的 。 


5.7.10 ”策略 设置 : 对 象 空间 预 留 


默认 情况 下 ，VSAN 上 部 署 的 所 有 对 象 都 是 精简 置 备 的 。 对 象 空 间 预 留 (OSR) 功能 定义 了 在 初始 化 阶段 预 留 给 存储 对 象 的 
逻辑 大 小 的 百分比 。 话 再 说 明 折 一 点 ，OSR 融 是 空间 预 留 量 ， 这 个 数量 以 总 对 象 地 址 空间 的 百分比 来 表示 。 你 可 以 用 这 个 属性 来 
配置 类 似 厚 置 备 的 存储 对 象 ， 即 使 这 并 不 是 一 回 事 。 


如 果 OSR 设 置 成 100%， 虚 拟 机 所 需 的 存储 空间 都 会 被 事先 预 留 。 注 意 ， 尽 管 对 象 本 身 仍然 是 精简 置 备 的 ， 对 象 所 需 声明 的 
空间 已 经 特地 预 留 了 出 来 ， 因 此 对 这 台 虚 拟 机 ，VSAN 数 据 存储 不 会 没有 空间 可 用 。 


注意 ， 在 VSAN 6.2 中 如 果 作 为 数据 精简 特性 的 去 重 和 压缩 被 局 用 ，OSR 可 能 只 能 设置 成 0% 或 100%。1%~99% 之 间 的 值 都 
不 能 使 用 。 


你 或 许 还 记得 某 些 存 储 对 象 (特别 是 虚拟 机 名 字 空 间 和 虚拟 机 交换 文件 ) 不 会 继承 某 些 策 略 设 置 ， 其 中 一 个 束 是 对 象 空间 预 
留 。 让 我 们 来 研究 一 下 这 两 种 特殊 的 对 象 。 


5.7.11 ”虚拟 机 主页 名 字 空 间 册 探 


VSAN 的 虚拟 机 主页 名 字 空 间 是 所 有 虚拟 机 共享 的 一 个 255GB 大 的 精简 置 备 的 对 和 象 。 名 字 空 间 是 每 个 虚拟 机 都 有 的 对 象 。 想 
象 一 下 ， 如 果 我 们 可 以 对 虚拟 机 主页 名 字 空 间 配 置 策 略 ， 例 如 比例 容量 和 读 取 缓存 预 留 ， 大 量 磁盘 和 闪存 空间 会 被 浪费 挥 。 
此 ， 虚 拟 机 主页 空间 有 目 己 特别 的 策略 ， 如 下 所 示 : 


每 个 对 象 的 磁盘 市 数 : 1 


允许 的 故障 数 : < 跟随 虚拟 机 策略 > 


内 存 读 取 缓 存 预 留 : 0% 
强制 置 备 : XX 

对 象 空间 预 留 : 0% (精简 ) 
容错 方法 : 跟随 虚拟 机 策略 
禁用 对 象 校 验 和 : 跟随 虚拟 机 策略 
对 象 的 IOP 限 制 : 跟随 虚拟 机 策略 


FTT 策 略 设置 继承 目 虚 拟 机 存储 策略 。 因 此 如 果 有 客户 创建 了 一 个 包 合 FTT 设 置 的 虚拟 机 存储 策略 ， 虚 拟 机 主页 名 字 空 间 将 


具有 同样 的 能 力 来 确保 策略 中 指定 的 故障 数 可 被 容忍 。 


5.7.12 ”交换 文件 再 探 


过 


虚拟 机 交换 文件 遵循 和 虚拟 机 名 字 空 间 一 样 的 规则 ， 使 用 同样 的 默认 策略 ， 也 丈 是 1 个 磁盘 条 市 、0% 的 读 取 缓存 预 留 ， 不 


， 它 的 对 象 空间 预 留 是 100%。 


注意 ， 虚 拟 机 交换 文件 的 FTT 为 1， 它 不 从 虚拟 机 存储 策略 继承 。 
每 个 对 象 的 磁盘 带 数 : 1 

允许 的 故障 数 : 1 

内 存 读 取 缓 存 预 留 : 0% 

强制 置 备 : On (开启 ) 

对 象 空间 预 留 : 10096 

容错 方法 : Performance (性 能 ) 

获 用 对 象 校 验 和 : NO (关闭 ， 即 局 用 对 象 校 验 和 |) 

对 象 的 IOPs 限 制 : Disabled ($) 


和 FTT 相 关 的 还 有 一 个 值得 注意 的 要 点 ， 束 是 强制 置 备 设 成 了 1， 这 意味 着 即使 某 些 策略 要 求 无 法 被 满足 (例如 人 允许 的 故障 


数 ) ， 虚 拟 机 区 换文 件 也 会 创建 出 来 。 


虚拟 机 交换 文件 也 不 像 虚 拟 机 主页 名 字 空 间 那 样 受 限 于 255GB 精 简 对 象 的 上 限 。 


虚拟 机 交换 文件 的 默认 值 也 不 会 被 虚拟 机 存储 策略 的 值 履 基 。 不 过 ， 如 前 面 提 起 过 的 ， 可 以 用 高 级 参数 


9wapThickProvisionDisabled 来 部 署 一 个 精简 置 备 的 虚拟 机 交换 文件 而 不 是 全 部 预 置 的 厚 置 备 对 象 。 


交换 文件 对 象 忌 是 以 RAID-1 配 置 的 万 式 部 署 ， 即 使 在 虚拟 机 关联 的 策略 中 设置 了 容错 方法 为 capacity (容量 ) 它 也 不 会 以 


RAID-5 或 RAID-6 的 方式 部 署 。 不 过 ,话说 回来 ， 这 可 以 通过 esxcli 命 令 行 修改 交换 文件 默认 值 的 方式 来 更 改 。 但 是 ， 我 们 希望 
读者 尽量 不 要 这 么 做 。 如 果 确 实 想 对 虚拟 机 交换 文件 做 类 似 的 修改 ， 请 参考 VMware 的 官 万 文档 。 


5.7.13 如何 理 看 虚拟 机 交换 文件 仓储 对 象 


我 们 已 经 知道 ， 虚 拟 机 交换 文件 是 组 成 虚拟 机 的 对 象 之 一 ， 其 他 对 象 还 有 虚拟 机 主页 名 字 空 间 、VMDK、 快 照 增 量 和 快照 
内 存 。 不 幸 的 是 ， 在 VSAN 6.2 之 前 的 版 本 中 ， 你 无 法 从 vSphere Web 客 户 端 的 虚拟 机 对 象 列表 中 看 见 虚拟 机 交换 文件 ， 这 不 可 


行 一 一 Vsan.vm_object info， 你 也 只 能 得 到 关 


避免 地 引 友 了 下 面 的 问题 : 如 何 检查 和 验证 虚拟 机 交换 文件 对 象 的 策略 及 其 消耗 掉 的 资源 ? 
) ,虚拟 机 交换 文件 的 信息 再 一 


事实 上 ， 要 做 到 这 扣 是 需要 知道 些小 容 | 的 。 因 为 即使 你 试图 使 用 RVC 命 令 
于 虚拟 机 主页 名 字 空 间 、VMDK、 快 照 增 量 和 快照 内 存 的 信息 (第 10 草 将 详细 介绍 RVC 命 令 行 
次 授 形 了 。 要 获取 虚拟 机 交换 文件 的 信息 ， 首 先 必须 从 虚拟 机 交换 文件 的 手 述 文件 (descriptor file) 中 获得 UUID 人 信息。 要 做 


到 这 一 点 ， 一 种 方法 是 通过 SSH 到 VSAN 群 集中 的 某 从 ESXi 主 机上， 并 在 ESXi shell 中 使 用 cat 命 令 行 来 显示 虚拟 机 交换 文件 的 摘 


述 文 件 的 内 容 ， 并 找到 objectID 这 一 项 。 举 例如 下 : 


# cat Auto-Perf-Tool-0b43d77a.vswp 


i# Object DescriptorFile 


— "ql" 


version 
objectID = "vsan://4£386056-1874-0983-b93e-ecf4bbd58600" 


= "yvmswap" 


object.class 
本 中 间 ， 来 显示 真实 的 交换 文件 对 象 了 。 这 条 命令 是 vsan.object info， 它 有 


AN ISNI, 
Rp 1 


—Hi3XSU m, WuRILUREEFHEERVC 
两 个 参数 ， 第 一 个 参数 如 示例 5-1 所 示 ， 第 2 个 是 UUID。 
示例 5-1 使 用 vsan.object info 来 显示 关于 交换 文件 对 象 的 信息 


/vcsa-05/Datacenter/computers» ls 
0 VSAN (cluster): cpu 134 GHz, memory 306 GB 
/vcsa-05/Datacenter/computers» vsan.object info 0 4f£386056-1874-0983-b93e- 


ecf4bbd58600 
DOM Object: 4f386056-1874-0983-b93e-ecf4bbd58600 (v4, owner: esxi-b-pref. 
rainpole.com, policy: hostFailuresToTolerate = 1, forceProvisioning = 1, 
proportionalCapacity = 100) 

RAID 1 


Component: 4f386056-4f12-6a83-25fd-ecf4bbd58600 (state: ACTIVE (5), 
host: esxi-b-pref.rainpole.com, md: naa.500a07510f86d686, ssd: 七 10 .ATA 
Micron P420m2DMTFDGARIT4MAX votes: 1, usage: 8.0 GB) 


Component: 4f386056-f50d-6b83-7493-ecf4bbd58600 (state: ACTIVE (5), 
host: esxi-a-pref.rainpole.com, md: naa.500a07510f86d693, ssd: tl10.ATA 
Micron P420m2DMTFDGARI1T4À4MAX votes: 1, usage: 8.0 GB) 


Witness: 4f386056-4fda-6b83-b6el-ecf4bbd58600 (state: ACTIVE (5), host: 
esxi-c-scnd.rainpole.com, md: naa.500a07510f86d6cf, ssd: t10.ATA 
Micron P420m2DMTFDGARIT4MAX votes: 1, usage: 0.0 GB) 


Extended attributes: 
Address space: 8589934592B (8.00 GB) 
Object class: vmswap 


Object path: /vmfs/volumes/vsan:5204d7ce46d435a6- 
81ba225b8f602a826/07386056-e16e-d37d-6536-ecf4bbd58600/Auto-Perf-Tool- 
0b43d77a.vswp 


Object capabilities: NONE 


现在 ， 我 们 得 到 了 虚拟 机 交换 文件 的 信息 ， 从 中 可 以 看 见 以 下 内 容 : 
- hostFailuresToTolerate 设 成 了 1， 这 说 明 虚 拟 机 交换 文件 配置 了 RAID-1 (镜像 ) 。 
: forceProvisioning 设 成 了 1。 这 意味 着 即使 当前 策略 无 法 满足 ， 也 必须 总 是 置 备 虚 拟 机 交换 对 象 。 
propotrtionalCapacity 设 成 了 100%， 这 意味 着 用 于 交换 文件 的 空间 的 确 是 完全 预 留 的 。 


从 空间 利用 的 角度 来 看 ， 我 们 可 以 推导 出 VSAN 上 部 堵 的 虚拟 机 的 交换 文件 会 消耗 〈 已 配置 内 存 - AFMA) x (FTT+1) 
的 容量 的 磁盘 空间 。 在 大 多 数 环境 中 ， 这 意味 着 消费 的 磁盘 空间 基本 上 是 虚拟 机 已 置 备 内 存 数 量 的 两 倍 ， 因 为 大 多 数 客户 不 设置 
MAB. 

当然 ， 目 标 是 使 这 个 信息 最 终 能 更 简单 地 做 访问 到 ， 不 过 现在 如 果 你 需要 这 个 信息 的 话 ， 此 方法 应 可 满足 你 的 要 求 。 虚 拟 机 


交换 文件 (.vswp) 是 考虑 VSAN 人 存储 容量 时 的 重要 因素 ， 请 务必 仔细 考量 。 第 9 章 中 提供 了 一 个 公式 来 帮助 计算 。VSAN 6.2 市 
来 的 新 的 容量 视图 也 可 以 提供 组 成 VSAN 上 虚拟 机 的 不 同 对 象 到 搬 消 耗 了 多 少 空间 的 信息 ， 包 括 虚 拟 机 交换 文件 对 象 。 





5.7.14 ” 增 量 盘 /快照 的 告 城 


大 多 数 时 候 ，VMDK 增 量 (也 常常 称 为 快照 ) 将 继承 关联 在 其 原 盘 上 的 策略 。 在 VSAN 中 ，vSphere 管 理 员 也 可 以 给 链接 殉 
gl] (linked clone) 设置 一 个 虚拟 机 存储 策略 。 对 于 链接 克隆 来 说 ， 策 略 仅 针对 链接 克隆 (顶层 增 量 盘 ) 本 身 ， 而 不 是 针对 原 
盘 的 ， 但 这 在 用 户 界面 中 是 不 显示 的 。VMware Horizon View 和 VMware vCloud Director 通 过 vSphere API 使 用 这 个 功能 。 


现在 你 知道 了 可 以 预 留 空间 并 且 磁 盘 是 精简 置 备 的， 你 或 许 会 想 知 道 哪里 可 以 找到 虚拟 机 消耗 了 多 少 空间 和 有 多 少 空间 预 贸 


等 信息 。 


Dii} 





[1] 链接 克隆 是 虚拟 桌面 的 一 种 ， 这 种 类 型 的 虚拟 吕 面 操作 系统 完全 一 致 ， 都 来 自 于 同一 个 母 盘 。 译 者 注 


5.7.15 ”验证 空间 的 实际 使 用 量 





在 用 户 界 面 中 选择 VSAN 数 据 仓 储 ， 点 Monitor 页 ， 再 点 击 Storage Reports， 就 可 以 看 见 一 个 漂亮 的 视图 ， 显 示 了 每 人 台 虚 
拟 机 占有 空间 的 实际 使 用 量 ， 如 图 5-26 所 示 。 注 意 ， 默 认 视 图 中 不 会 自动 显示 所 有 的 列 ， 你 需要 手工 把 它们 添加 进来 。 






Getting Started Summary Monitor | Manage Related Objects 


| Issues | Performance | Tasks | Events [Storage Reports | 








J Report On: | Virtual Machines + | (Q Fie - 
vM Space Uses X. Space Virtus Disk X Virtua Swap Other VM Space X Other YMS B5ha'ec 5pace X Shared Spaoe Provonec 5pace U^comm med Space 
win 542 GB 0.31 542 GB 0.31 OB 287.2 KB 0.00 0B 0.00 2221 GB 16.79 GB 
150G8* 1000SR * SW» 1 150 GB B.45 150 GB B.45 0B 131.17 KB 0.00 0B 0.00 154.23 GB 42308 
SW*12VM 2 MB 0.00 2 MB 0.00 0B 1.97 KB 0.00 0B 0.00 154.23 GB 154 22 G8 
COR VSAN-VRA 12 GB 0.68 12 GB 0.68 0B 316.94 KB 0.00 0B 0.00 16.25 GB 425 G8 
FTT*0,SW*4 1.89 KB 0.00 08 0.00 0B 1.99 KB 0.00 0B 0.00 4423 GB 4423 GB 
150G8-VM 251.27 KB 0.00 0B 0.00 0B 251.27 KB 0.00 0B 0.00 154.23 GB 15423 G8 
150G8-OSR-VM 150 GB B.45 150 GB B.45 0B 1.99 KB 0.00 0B 0.00 154.23 GB 4.23 G8 
300G8-OSR-SW2-VM 300 GB 16.91 300 GB 16.91 0B 2.01 KB 0.00 0B 0.00 304.23 GB 423 G8 





图 5-26 VSAN 数 据 存 储 到 底 消 耗 了 多 少 空间 


天 于 对 象 空 间 预 留 (OSR) 这 里 有 一 些 有 趣 的 内 容 。 如 前 所 述 ， 所 有 部 署 到 VSAN 上 的 虚拟 机 本 质 上 都 是 精简 置 备 的 。 在 图 
5-26 的 例子 中 ， 我 们 部 署 了 一 台 叫 作 120GB-VM 的 虚拟 机 ， 没 有 对 其 配置 OSR。 可 以 看 见 这 人 台 虚 拟 机 的 虚拟 磁盘 大 小 是 0 字 节 。 


第 2 个 例子 中 ， 我 们 部 署 了 一 台 叫 作 120GB-OSR-VM 的 虚拟 机 ， 并 对 其 配置 了 100% 的 O3R， 可 以 看 见 它 的 虚拟 磁盘 的 大 小 
是 150GB， 因 为 VSAN 已 为 此 对 象 预 留 〈 但 未 消耗 ) 了 100% 所 需 的 空间 。 


5.7.16 ”策略 设置 : 强制 置 备 


我 们 曾 多 次 提起 这 个 功能 : 强制 置 备 。 如 果 这 个 参数 设 成 了 一 个 非 零 的 值 ， 那 么 即使 虚拟 机 存储 策略 无 法 被 VSAN 满 足 ， 对 
象 还 是 会 被 置 备 。 然 而 ， 如 果 群 集中 没有 足够 的 空间 来 满足 至 少 一 个 副本 对 预 留 的 要 求 ， 即 使 启用 了 强制 置 备 ， 置 备 仍 然 会 失 
败 ! 


现在 我 们 已 经 知道 这 些 不 同 的 功能 是 怎么 回 事 了 ， 接 下 去 让 我 们 来 看 看 当 故 障 友 生 时 VSAN 如 何 利 用 这 些 功能 。 


5.7.17 ”iE 和 副本: 故障 场景 


对 于 VSAN， 故 障 场景 忌 是 一 个 热门 话题 。 应 该 如 何 配 置 ? 故障 时 VSAN 又 会 怎样 反应 ?本 证 我 们 会 用 几 个 简单 的 场景 来 摘 
述 特定 情况 下 VSAN 会 如 何 应 对 。 


下 面 的 例子 中 涉及 一 个 使 用 RAID-1 镜 像 配 置 的 4 主机 的 VSAN 群 集 。 我 们 会 在 不 同 的 允许 的 故障 数 和 条 市 完 度 设置 下 讨论 在 


主机 故障 情况 下 是 如 何 表现 的 。 请 知晓 这 里 的 例子 只 是 为 了 说 明 问 题 ， 解 释 在 需要 进行 对 象 放置 决策 时 VSAN 可 能 会 做 出 的 决 
定 。VSAN 可 能 会 选择 任何 可 以 满足 客户 需求 的 配置 ( 指 允 许 的 故障 数 和 条 市 锅 度 ) 。 例 如 ， 如 果 FTT 和 SW 的 值 更 高 ， 放 置 选择 
中 的 见证 的 数量 和 主机 的 数量 束 可 能 会 比 下 面 所 示例 子 中 的 数值 更 高 。 


示例 1: 允许 的 故障 数 为 1 且 条 市 宫 度 为 1 


在 这 第 一 个 例子 中 ， 条 市 宽度 被 设 为 了 1。 因 此 ， 没 有 配置 条 市 ， 只 是 一 个 简单 的 对 象 实例 。 然 而 ， 要 求 是 必须 能 容忍 一 块 
磁盘 或 一 台 主 机 故障 ， 所 以 必须 要 创建 一 个 副本 (组 件 的 RAID-1 镜 像 ) 。 不 过 在 这 个 配置 中 需要 1 个 见证 来 避免 裂 脑 情 况 。 裂 脑 
情况 下 ，esxi-01 和 esxi-03 都 仍然 在 持续 运行 ， 但 是 互相 乙 间 的 通信 中 断 了 。 哪 台 主 机 能 和 见证 通信 惑 是 拥有 有 效 的 数据 拷贝 的 
主机 。 在 这 些 配 置 中 ， 数 据 放 置 可 能 如 图 ?-27 所 示 。 
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图 5-27 允许 的 故障 数 =1 


图 5-27 中 ， 当 友 生 了 一 台 主 机 故障 或 者 是 一 块 磁盘 故障 ， 数 据 仍然 可 以 被 访问 。 如 果 esxi-04 友 生 了 故障 ， 由 于 还 是 具有 大 
于 一 半 的 组 件 ，esxi-02 和 esxi-03 继 续 可 以 提供 数据 访问 。 然 而 ， 如 果 esxi-03 和 esxi-04 都 出 现 了 故障 ， 融 无 法 满足 简单 多 数 的 
条 件 ， 数 据 融 无 法 被 访问 了 。 注 意 ， 在 这 个 场景 中 ， 从 计算 资源 的 角度 来 这， 虚拟 机 是 运行 在 esxi-01 上 的 ， 而 对 象 的 组 件 则 是 
存储 在 esxi-02/03/04 上 的 。 


示例 2: 人 允许 的 故障 数 为 1 且 条 市 金 度 为 2 


再 来 看 一 看 另 一 个 例子 ， 这 次 条 市 宽大 增加 到 了 2， 意 味 着 每 个 组 件 必 须 至 少 补 分 拆 到 2 个 磁盘 上 ， 不 过 这 可 能 会 是 同一 台 
主机 上 的 2 块 磁盘 或 是 不 同 主机 上 的 2 块 磁盘 。 图 5-28 显 示 了 存储 对 象 的 一 种 可 能 的 分 布 方式 。 
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可 以 看 到 在 这 个 例子 中 ，VSAN 把 第 1 个 条 市 (RAID-0) 的 2 个 组 件 都 放 在 了 esxi-01 上 而 把 第 2 个 条 市 的 组 件 分 开放 置 到 了 
esxi-02 和 esxi-03 上 。 因 为 允许 的 故障 数 为 1， 我 们 配置 了 RAID-1 镜 像 。 在 这 个 配置 中 ， 也 用 到 了 见证 。 为 什么 这 个 示例 中 也 需 
要 见证 ?想象 一 下 ， 假 设 esxi-01 发 生 了 故障 ， 这 会 同时 影响 esxi-01 上 的 2 个 组 件 ， 现 在 我 们 有 2 个 组 件 发 生 了 故障 ， 而 另外 2 个 
仍然 企 esxi-02 和 esxi-03 上 运行 得 好 好 的 。 在 这 种 情况 下 ， 我 们 仍然 需要 一 个 见证 盘 来 避免 腥 脑 的 情况 。 


注意 ， 如 果 每 个 RAID-0 中 各 坏 一 个 组 件 的 话 ， 数 据 将 无 法 被 访问 ， 这 是 因为 RAID-1 的 2 个 副本 都 受 影 响 了 。 因 此 ，esxi-01 
上 的 一 个 磁盘 故障 和 esxi-02 上 的 一 个 磁盘 故障 会 导致 虚拟 机 无 法 被 访 问 ， 直 到 磁盘 故障 航 修复 为 止 。 由 于 见证 盘 不 包含 数据 ， 
在 这 种 情况 下 也 无 能 为 力 。 注 意 ， 此 时 故障 数 大 于 1， 而 我 们 的 策略 设置 成 了 只 能 容忍 1 个 故障 。 


示例 3: 人 允许 的 故障 数 为 2 目 条 市 宽度 也 为 2 


在 最 后 这 个 例子 中 ， 人 允许 的 故障 数 被 设 成 了 2， 意 味 着 还 需要 骨 多 一 个 副本 。 因 为 每 个 副本 都 由 2 个 条 市 化 了 的 组 件 构 成 ， 
所 以 在 VSAN 数 据 存 储 上 还 需要 额外 增加 2 个 组 件 。 现 在 ,部 署 图 看 上 去 可 能 如 图 5-29 所 示 。 
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条 市 组 件 前 面 已 经 解释 过 ， 大 家 应 该 很 清楚 了 。 类 似 地 ， 现 在 出 现 了 第 3 个 RAID-0 副 本 ， 这 也 可 以 理解 。 但 是 出 现 了 3 个 见 
证 盘 怎 么 解释 呢 ? 嗯 ， 考 虑 下 这 样 一 种 情况 : esxi-02 和 和 esxi-05 都 坏 了 ， 这 相当 于 4 个 组 件 失 联 ， 为 了 具有 超过 半数 的 裁决 权 ， 
只 剩 下 2 个 组 件 是 不 够 的 ， 至 少 要 5 个 组 件 才 能 满足 超过 半数 的 条 件 。 这 就 是 这 个 配置 中 需要 3 个 见证 的 原因 。 这 样 ， 在 2 台 主 机 
故障 的 情况 下 才能 保证 数据 仍然 可 以 被 访问 。 注 意 ， 以 上 行为 可 见于 VSAN 的 最 初 友 行 版 本 。 从 VSAN 6.0 起 引入 了 投票 的 概 
念 ， 组 件 具有 投票 权 。 通 过 这 种 投票 机 制 ， 所 需 的 见证 组 件数 可 能 不 再 需要 那么 多 了 。 不 过 ， 前 面 摘 绘 的 场景 可 能 仍然 成 辽 ， 只 
是 把 见证 组 件 蔡 换 成 了 组 件 投票 权 而 已 。 


5.7.18 ”通过 校 验 和 实现 的 效 据 宛 整 性 


VSAN 6.2 市 来 的 一 项 新 功能 是 引入 了 软件 校 验 和 。 虽 然 在 早期 版 本 的 VSAN 中 ， 某 些 VSAN ready 节 点 通过 特殊 的 硬件 设备 
提供 了 对 校 验 和 的 支持 ，VSAN 6.2 是 第 一 个 通过 软件 提供 该 功能 的 VSAN 版 本 。 它 要 求 on-disk 磁 盘 格 式 版 本 3， 这 也 是 随 
VSAN 6.2 而 来 的 新 的 on-disk 磁 盘 格 式 。 


这 个 特性 基于 每 个 虚拟 机 /VMDK 的 策略 驱动 特性 ， 但 是 默认 是 启用 的 。 如 果 省 理 员 不 希望 其 对 象 使 用 校 验 和 功能 ， 束 必须 
创建 一 个 特定 的 策略 来 禁用 之 (将 蔡 用 对 象 校 验 和 设 为 Yes) 。 这 个 策略 配置 如 图 5-30 所 示 。 








Rules based on data services (Miss ld 


Failure tolerance method. 69 RAID-1 (Mirroring) - Performance — | > 


Disable object checksum 69 Yes E Qo 





图 5-30” 校 验 和 策略 设置 


校 验 和 特性 在 混合 配置 和 全 闪存 配置 都 可 以 使 用 。 校 验 和 数据 通过 VSAN IJ/O 堆 栈 ， 每 个 4KB 数 据 块 会 创建 一 个 ? 字 节 的 校 验 
和 并 同 数据 分 开 保 分 ， 这 友 生 在 数据 写 入 持续 性 存储 之 前 。 换 而 言 之 ， 校 验 和 的 计算 友 生 在 数据 块 写 入 到 缓存 层 之 前 。 


如 果 在 |/O 路 径 中 友 现 了 校 验 和 错误 ， 校 验 和 错误 会 被 自动 修复 。 声 明 校 验 和 错误 被 友 现 并 被 修复 的 消息 会 记录 到 
VMkernel 日 志 中 。 


校 验 和 还 包括 一 个 数据 擦 除 机 制 ， 它 会 每 7 天 验证 一 次 数据 和 校 验 和 ， 保 护 VSAN 环 境 ， 例 如 因为 数据 位 衰减 导致 的 资料 损 
坏 。 校 验 和 机 制 还 利用 了 可 以 更 快 地 处 理 进程 的 加 速 硬件 指令 (Intel c2c32c) 。 


5.7.19 ”从 故障 中 恢复 


当 故 障 被 检测 到 时 ，VSAN 会 判断 哪个 对 象 有 组 件 在 那 台 故障 设备 上 。 这 些 故 障 组 件 则 会 被 标注 为 degraded (已 降级 ) 或 
absent (PFE) ， 不 过 我 们 要 说 的 重点 是 |/O 流 会 立刻 在 对 象 剩 下 的 组 件 上 重建 起 来 。 根 据 故障 类 型 的 不 同 ，VSAN 会 决定 是 
立刻 采取 行动 还 是 等 一 段 时 间 (605388) ， 这 取决 于 VSAN 是 否 知道 设备 友 生 了 什么 情况 。 例 如 ， 当 主机 故障 时 ，VSAN 通 瘦 不 
知道 友 生 的 原因 是 什么 ， 甚 至 可 能 不 知道 到 底 友 生 了 什么 情况 





是 主机 故障 还 是 网 络 故障 ? 是 暂时 的 还 是 持久 的 ， 等 等 。 它 
可 能 只 是 问题 主机 的 一 次 重启 而 已。 如 果 这 种 情况 发 生 了 ， 受 影响 的 组 件 会 被 标注 为 处 于 “absent” (不 存在 ) 状态 并 修复 延 
迟 计时 器 开始 倒计时 。 如 果 是 一 个 诸如 磁盘 或 SSD 的 设备 报告 了 一 个 永久 性 错误 ， 它 会 被 标注 为 degraded (已 降级 ) 并 且 立 刻 
被 VSAN 重 新 保护 起 来 (替换 组 件 被 重建 并 同步 ) 。 


在 这 个 例子 中 ， 假 设 我 们 遇 到 的 情况 是 一 个 永久 性 的 主机 故障 。 


一 旦 VSAN 意 识 到 组 件 失 联 ， 惑 开始 局 动 一 个 60 分 钟 的 计时 器 。 如 果 组 件 人 在 60 分 钟 内 恢复 ，VSAN 会 同步 副本 。 如 果 组 件 没 
能 恢复 ，VSAN 会 创建 一 个 新 副本 ， 如 图 5-31 所 示 。 


| 主机 故障 ， 等 待 60 分 钟 后 再 创建 新 镜像 拷贝 
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图 5-31 主机 故障 : 延迟 60 分 钟 


注意 ， 你 可 以 在 高 级 设置 中 减 小 这 个 超时 (timeout) 值 ， 方 法 是 在 每 台 ESXi 主 机 的 高 级 设置 区 ， 更 改 
VSAN.ClomRepairDelay 参 数 。 不 过 你 必须 非常 小 心 ， 因 为 如 果 这 个 值 被 设置 得 大 小 ， 简 单 的 任务 例如 重启 一 台 主 机 ， 你 都 可 
能 发 现在 主机 完成 重启 之 前 ，VSAN 就 已 经 开始 重建 新 的 组 件 了 。 这 给 VSAN 增 加 了 不 必要 的 开销 ， 而 且 可 能 会 影响 群集 的 整体 
性 能 。 


如 果 你 真 的 想 更 改 这 个 参数 ， 我 们 强烈 建议 你 在 群集 中 所 有 主机 上 保持 相同 的 值 ， 这 可 以 通过 脚本 方式 实现 。 并 且 要 定期 监 
控 这 个 参数 实施 的 一 致 性 以 避免 因 不 一 致 导致 的 问题 。VSAN health check (健康 检查 ) 服务 也 会 验证 这 个 值 是 不 是 在 群集 的 
所 有 主机 之 间 保 持 一 致 。 (在 更 改 ESXi 高 级 设置 前 ， 请 参考 VMware 文档 或 咨询 VMware 技术 文 持 ) 。 


前 面 说 过 ， 在 某 些 场合 下 VSAN 会 对 故障 立刻 做 出 反应 。 这 取决 于 故障 的 类 型 一 一 例如 磁盘 或 内 存 设备 故障 。 很 多 情况 下 ， 
控制 器 或 设备 本 身 能 够 指出 友 生 了 什么 故障 ， 并 会 告诉 VSAN 设 备 (故障 ) 不 太 可 能 很 快 (在 一 个 合理 的 时 间 内 ) 恢复 ， 于 是 
VSAN 会 立刻 响应 ， 把 所 有 受 影响 的 组 件 (如 图 5-32 中 的 VMDK) 标注 为 “degraded” (BR) ， 并 立刻 创建 一 个 新 的 镜像 
拷贝 。 


当然 ， 在 创建 镜像 之 前 VSAN 会 验证 是 否 有 足够 的 空间 来 存放 这 个 新 的 拷贝 。 


如 果 故 障 在 60 分 钟 内 融 恢 复 了 ， 或 者 在 还 未 完成 副本 的 创建 之 前 残 恢 复 了 ，VSAN 会 继续 完成 副本 的 创建 。 一 旦 创建 完成 且 
新 的 副本 是 健康 的 ， 旧 组 件 融会 被 丢 奔 。 这 取决 于 一 个 概念 





重新 配置 (reconfiguration) 。 


| 磁盘 故障 ， 受 影响 组 件 的 镜像 拷贝 即刻 新 建 | 
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已 降级 状态 





图 5-32 REEE: 即刻 复制 镜像 拷贝 


VSAN 中 重新 配置 的 友 生 有 很 多 原因 。 首 先 ， 用 户 可 能 会 选择 改变 对 象 的 策略 ， 而 当前 的 配置 或 诗 不 再 能 符合 新 的 策略 的 规 
定 ， 所 有 新 的 配置 必须 计算 出 来 并 应 用 到 对 和 象 上 。 其 次 ， 群 集中 的 磁盘 或 节点 可 能 会 友 生 故 障 。 如 果 一 个 对 和 象 和 去 失 了 其 配置 中 的 
一 个 组 件 ， 它 也 可 能 会 不 再 能 满足 策略 。 


重新 配置 可 能 是 最 消耗 资源 的 任务 ， 因 为 在 大 多 数 情 况 下 都 会 产生 大 量 数 据 的 转移 。 为 了 保证 普通 的 虚拟 机 1/O 不 会 被 重新 
配置 任务 影响 ，VSAN 具 有 这 样 的 能 力 : 把 重新 配置 任务 (对 资源 的 请 求 ) 限制 在 一 定 范 围 内 ， 从 而 不 影响 虚拟 机 的 性 能 。 


5.7.20 ”问题 设备 的 处 理 


VSAN 6.1 引 入 了 一 个 新 特性 : 间 题 设备 处 理 。 这 个 特性 背后 的 一 个 重要 的 驱动 因素 是 想 要 处 理 那 些 磁盘 或 SSD 表 现 异 弟 的 
情况 ， 尤 其 是 需要 找到 一 个 万 法 来 处 理 持续 报告 短暂 错误 但 是 又 没有 完全 失效 的 驱动 器 。 当 然 ， 在 这 种 情况 下 ， 这 个 驱动 器 可 能 
引起 群集 的 整体 性 能 问题 。 这 个 新 特性 的 目的 殊 是 用 一 种 机 制 来 监控 这 些 表现 异常 的 驱动 器 ， 隔 离 之 ， 使 之 不 再 影响 群集 的 整体 
性 能 。 


这 个 特性 监控 VSAN ， 寻 找 SDD 或 磁盘 驱动 器 高 延迟 显著 的 时 间 段 。 如 果 观 察 到 一 个 持续 的 高 延迟 ，VSAN 会 将 该 磁盘 所 在 
的 磁盘 组 卸载 (unmount) 掉 。 在 这 个 磁盘 组 中 的 组 件 会 被 标注 成 permanent error (KAR) ， 并 将 会 在 群集 的 其 他 地 方 
被 重建 。 这 意味 着 虚拟 机 的 性 能 可 以 始终 如 一 ， 不 被 表现 异常 的 驱动 器 所 影响 。 


VSAN 6.2 中 这 个 特性 得 到 了 加 强 。 在 这 个 上 布 版 本 中 ， 每 过 一 段 时 间 ，VSAN 残 会 试图 志 试 重新 加 载 (Mount) 标记 为 


permanent error 的 缓存 层 和 容量 层 磁 盘 。 这 仪 当 引起 原先 问题 的 故障 不 再 人 存在 的 时 候 才 会 成 功 。 如 果 加 载 成 功 了 ， 物 理 磁 盘 惑 
不 需要 被 更 换 ， 不 过 组 件 还 是 需要 重新 同步 。 如 果 不 成 功 ， 人 磁盘 会 继续 被 标注 为 permanent error, 


5.7.21 ”延伸 性 VSAN 的 情 兄 又 如 何 


随 着 VSAN 6.1 的 友 布 ，VMware 引 入 了 对 VSAN 延 伸 群 集 的 支持 。 它 使 用 RAID-1， 部 署 在 延伸 群集 上 的 虚拟 机 在 一 个 站 点 
具有 一 个 副本 ， 在 另 一 个 站 点 具有 另 一 个 副本 。 如 果 一 个 站 点 发 生 了 故障 ， 完 整 的 数据 仍然 存在，vSphere HA 会 处 理 这 个 情 
况 ， 把 虚拟 机 在 存活 的 站 点 上 开局 起 来 。 


让 我 们 来 看 一 看 定义 了 FFT= 1 时， 延伸 群集 环境 下 的 VSAN 是 怎样 表现 的 : 图 ?-33 的 场景 残 是 在 组 件 放置 时 VSAN 的 表现 。 
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图 5-33 VSAN 延 伸 群 集 


为 了 使 得 延伸 群集 正常 运行 ， 下 面 这 些 增 强 是 非 弟 重 要 的 : 


对 象 放 置 : 通过 使 用 VSAN 6.0 引 入 的 故障 域 ， 来 实现 将 数据 的 某 个 副本 部 署 在 站 点 A， 同 时 将 另 一 个 数据 副本 部 署 在 站 点 


- 见证 放置 : 当 分 区 /隔离 情况 发 生 时 ， 需 要 第 三 个 站 点 作为 裁判 。 从 VSAN 6.1 发 布 版 本 起 ， 还 提供 了 见证 虚拟 设备 ， 它 是 


运行 在 虚拟 机 上 的 一 台 精 简 的 ESXi 主 机 。 


OXRRD VMwate 已 经 进行 了 大 量 的 实验 来 量化 VSAN 延 伸 群 集 所 需 的 对 带宽 和 延迟 的 要 求 ， 同 时 还 完成 了 大 量 测试 来 验证 


VSAN 是 否 可 以 通过 1L2 或 1L3 的 网 络 实现 。 


5.8 小结 


VSAN 具 有 一 个 特别 的 架构 ， 既 有 前 瞻 性 又 同时 具备 可 扩展 性 。 它 设计 用 来 处 理 极端 的 |/O 负 和 载 并 可 以 应 付 不 同 的 故障 ， 关 
键 就 在 于 基于 策略 的 管理 。 创 建 策略 阶段 做 出 的 决策 决定 了 VSAN 数 据 存 储 及 其 工作 负载 的 灵活 性 、 性 能 和 弹性 将 可 以 达到 何 种 
FEE. 


HOR —RETAVCRTA SR ERRAT VE fS 


本 章 介 绍 虚 拟 机 置 备 工 作 流 的 一 些 例子 。 前 面 已 经 学 习 了 VSAN 的 虚拟 机 存储 策略 的 各 种 功能 ， 这 些 功能 可 以 用 于 添加 一 个 
虚拟 机 存储 策略 和 在 一 个 可 用 的 VSAN 数 据 存储 上 部 署 一 台 虚 拟 机 。 本 章 将 覆 匡 如何 使 用 这 些 功能 来 创建 合适 的 虚拟 机 存储 策略 
并 讨论 虚拟 机 存储 对 象 在 部 署 到 VSAN 数 据 存储 之 后 的 布局 。 


6.1 策略 设置 : FTT=1 


让 我 们 从 创建 一 个 非常 简单 的 虚拟 机 存储 策略 开始 。 然 后 来 检查 将 这 个 策略 部 署 虚 拟 机 到 VSAN 数 据 存储 时 会 友 生 什 么 。 创 
建 的 第 一 个 策略 只 有 一 个 功能 设置 一 一 允许 的 故障 数 为 1。 我 们 将 先 使 用 RAID-1 镜 像 来 实施 FTT， 之 后 再 看 一 看 虚拟 机 对 象 的 
RAID-5 或 RAID-6 的 配置 。 这 意味 着 任何 用 这 个 策略 部 署 到 VSAN 数 据 存储 上 的 虚拟 机 都 会 配置 一 个 额外 的 数据 镜像 拷贝 (Ri 
本 ) ， 这 样 如 果 VSAN 和 群集 中 发 生 了 一 个 故障 ，VSAN 和 存储 对 象 仍然 完全 可 用 。 让 我 们 用 实际 行动 来 验证 一 下 。 人 在 动手 之 前 ,让 
我 们 先 画 出 预期 的 结果 ， 如 图 6-1 所 示 。 








/ A \ 
| em———————— | PN v | 
| | | d | | | | 
| | | | | | | | 
| | | |! | | | | 
| | | | | | | | 
| | | | | | | | 
| | | | | | | | 
| | | | | | | | 
| | 1 | | | | 
| | | | | | | | 
LE E “| | | | 
00 镜像 拷贝 ji | 1 镜像 拷贝 ji 
用 芋 S | | | 
| | | | 
| | | | 
| | | | 
OT | A | 
| ESXi 主机 | | ESXi 主机 | 
M L LOLLL » M L LLL LLL - 


图 6-1 VSANI/Oi: FTT 1 


这 个 混合 配置 的 VSAN 环 境 中 具有 好 多 台 ESXi 主 机 ， 每 台 ESXi 主 机 都 只 有 一 个 磁盘 组 ， 每 个 磁盘 组 都 只 含 一块 SSD 和 一 块 磁 
盘 。 这 个 VSAN 群 集 已 经 启用 ， 并 且 ESXi 主 机 已 经 组 成 了 一 个 VSAN 数 据 存 储 。 我 们 将 在 这 个 数据 存储 上 部 署 一 台新 的 虚拟 机 。 


让 我 们 首先 来 回顾 一 下 虚拟 机 存储 策略 创建 的 过 程 。 这 个 创建 过 程 在 第 4 草 中 已 经 非常 具体 地 介绍 过 了 ， 大 家 还 学 到 了 可 用 
在 VSAN 数 据 存 储 上 部 署 虚拟 机 的 各 种 不 同 的 功能 ， 或 许 你 还 记得 ， 虚 拟 机 存储 策略 中 的 8 种 功能 是 : 


允许 的 故障 数 
- 每 个 对 象 的 磁盘 带 数 


: 对 象 的 [LOPS 限制 


-共用 对 象 校 验 和 


容错 方法 


“ 闪存 读 取 缓存 预 留 ( 仅 混合 配置 ) 


S $m up m ug 


强制 置 备 





我 们 从 最 简单 的 开始 ， 让 第 一 个 虚拟 机 存储 策略 只 包含 一 个 简单 的 功能 一 一 允许 的 故障 数 为 1。 


首先 ， 在 vSphere Web 客 户 端 的 VM Storage policies (虚拟 机 存储 策略 ) 页 面 中 创建 一 个 新 策略 。 这 将 会 打开 Create 
New VM Storage Policy (创建 新 虚拟 机 存储 策略 ) 的 新 窗口 ， 如 图 6-2 所 示 。 


try Create New VM Storage Policy 





VÀ 1 Name and description Name and description 


Enter a name and (optional) description 





2 Rule-Sets 
Za Rulo Set 3 vCenter Server: [ie-vcva-01 | vcva-01 |» | 
3 Matching resources V ——— — € 
Name: My first policy 
4 Ready to complete 
Description: Set up Number of Failures to Tolerate 7 1 








Back Next Finish || Cancel 


sé 














图 6-2 ”创建 一 个 虚拟 机 存储 策略 


下 一 个 屏幕 会 显示 天 于 规则 集 (Rule-sets) 的 信息 。 规 则 集 是 把 多 个 规则 组 合 在 一 起 的 方法 ， 通 过 这 种 方法 ， 虚 拟 机 可 以 
根据 所 选 的 要 满足 的 规则 的 不 同 ， 部 署 到 不 同 的 数据 存储 上 去 。 出 于 练习 的 目的 ,我们 只 创建 了 一 个 规则 集 。 这 个 向 导 程序 显示 
了 关于 规则 集 的 额外 信息 ， 如 图 6-3 所 示 。 


A rule-set is a group of rules that describe PO PE TOE A: 
gO Ech rue describes some quality/quantity that is desired. 
2a 1 Storage devices that meet all the rules satisfy the rule-set. 


One rule-set is required; additional ones are optional. 
3 Matching resouross A rule-set can include rules from only a single vendor. 


4 Ready to complete Multiple rule-sets allow a single VM storage policy to define alternate selection criteria, often from several vendors. 


Example 


Vendor 
Namespace 1 Rule(s) 
十 
Tag Based Rule(s) 





E6-3 UNA 


下 一 个 屏幕 开始 给 VSAN 添 加 我 们 自己 的 规则 集 。 首 先 要 把 Vendor 从 None 改 成 VSAN 在 <Add rule> 下 拉 菜 单 中 就 会 出 
现 新 增 的 选项 。 此 时 点 击 <Add rule> ， 束 会 显示 又 持 的 这 些 功 能 ， 如 图 6-4 所 示 。 


Rule-Set 1 


Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
The VM storage policy will match datastores that satisfy all the rules in at least one of the rule-sets. 


Rules pasoa on dia sorces 
mn. 








Number of disk stripes per object 
Flash read cache reservation (96) 
Number of failures to tolerate 
Failure tolerance method 

IOPS limit for object 

Disable object checksum 





Ad another rd s 





图 6-4 VSAN 的 功能 


对 于 第 一 个 策略 ,我 们 想 要 湛 加 的 功能 是 允许 的 故障 数 ， 并 把 它 设 为 1， 如 图 6-5 所 示 。 


ÊS Create New VM Storage Policy 


v^ 1 Name and description Rule-Set 1 
Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w 2 Rule-Sets The VM storage policy will match datastores that satisfy all the rules in atleast one ofthe rule-sets. 


2a Rule-Set 1 
3 Storage compatibility Rules based on data services Storage Consumption Model 


4 Ready to complete Number of disk stripes per object €) Q) | Avirtual disk with size 100 GB 
would consume: 


«Add rule» | z Storage space 
200.00 GB 


Rules based on tags Initially reserved storage space 
0.00 B 


Add tag-based rule... Reserved flash space 


0.00 B 


Add another rule set | | Remove this rule set | 
一 一 








图 6-5 ”可 允许 的 故障 数 设 为 1 


在 这 个 向 导 程序 中 ， 还 有 很 多 其 他 特性 ， 例 如 Add tag-based rules (添加 基于 标记 的 规则 ) 和 Add another rule set (s 
加 其 他 规则 集 ) 按钮 。 这 些 超出 了 本 书 的 讨论 范畴 ， 不 过 你 可 以 在 官方 的 vSphere 文 档 中 找到 额外 的 信息 。 有 一 点 我 们 想 要 提 的 
是 ， 在 向 导 程序 的 右边 显示 了 “storage consumption model" (存储 消耗 模型 ) 。 它 根据 策略 中 设 定 的 要 求 ， 给 管理 员 提 供 
了 天 于 空间 消耗 的 信息 。 例 如 ， 使 用 RAID-1 配 置 来 允许 一 个 故障 意味 着 数据 需要 创建 2 个 拷贝 ， 那 么 100GB 的 VMDK 将 人 在 VSAN 
数据 存储 上 消耗 200GB 的 空间 ， 这 将 在 存储 消耗 模型 中 特别 显示 出 来 。 


点 击 Next 进 入 向 导 程 序 的 Matching resources (匹配 的 资源 ) 窗口 ， 此 时 VSAN 数 据 存 储 应 该 会 显示 出 来 ， 如 图 6-6 所 示 。 
这 意味 着 VSAN 数 据 存 储 已 经 理解 了 VM 存储 策略 的 内 容 ( 亦 即 功能 ) 。 


注意 ， 在 最 初 的 VSAN 版 本 中 ，VSAN 数 据 存储 在 Compatible storage (兼容 存储 ) 窗口 显示 出 来 并 不 意味 着 VSAN 数 据 存 
储 可 以 用 来 置 备 虚 拟 机 。 全 上 略 可 能 会 包含 一 个 不 切实 际 的 条 市 宽度 或 FTT 设 定 ， 无 法 被 VSAN 和 群集 满足 。 这 个 屏幕 仅仅 意味 着 
VSAN 理 解 了 策略 的 内 容 。 这 是 一 个 重要 的 区 别 。 这 个 问题 在 VSAN 后 续 的 版 本 中 得 到 了 解决 ， 如 果 群 集 配置 无 法 满足 策略 的 内 
容 ，VSAN 数 据 存 储 还 可 以 显示 为 incompatible (不 兼容 ) 。 


再 次 检查 策略 并 点 击 Finish (完成 ) 来 创建 策略 。 获 喜 ! 你 已 经 创建 了 第 一 个 虚拟 机 存储 策略 。 现 在 可 以 再 进一步 用 这 个 策 
略 去 部 署 一 台新 的 虚拟 机 。 部 署 一 台新 的 虚拟 机 和 以 前 的 方法 一 模 一 样 ， 唯 一 的 区 别 在 于 存储 选择 的 步骤 。 在 VSAN 第 1 版 中 ， 
默认 情况 下 ， 是 不 会 选择 任何 虚拟 机 存储 策略 的 。 默 认 的 设置 是 None， 如 图 6-7 所 示 。 


Storage compatibility 
As defined, this VM storage policy is compatible with the following storage: 


V4 3 Storage compatibility 


vV 4 Ready to complete. 





El vsanDatastore Bg mgmt-datace.. vsan | 265TB 


一 


| 

















图 6-6 ”兼容 的 存储 资源 


wsomrumr (m |:]0 


The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the virtual 
machine configuration files and all of the virtual disks. 


v 2C Select storage 


2d Select compatibility 
2e Select a guest OS 
2f Customize hardware 


3 Ready to complete 





图 6-7 没有 选择 任何 策略 (VSAN 1.0) 


在 VSAN 6.0 则 不 同 ， 它 为 VSAN 数 据 仔 储 引 入 了 一 个 默认 人 策略， 叫做 Virtual SAN default storage policy (VSAN 上 默认 存 
IARE) 。 这 个 默认 策略 的 规则 集中 允许 的 故障 数 设 为 1 且 每 个 对 象 的 条 市 数 也 设 为 1。 现 在 当 虚 拟 机 创建 并 选择 VSAN 数 据 存储 
的 时 候 ， 叫 做 Datastore Default 的 策略 会 被 选中 。 束 VSAN 数 据 存 储 来 况 ， 这 束 是 VSAN 默 认 存 储 策略 ， 如 图 6-8 所 示 。 


1 Select creation type Select storage 


Select the datastore in which to store the configuration and disk files 
v 1a Selecta creation type 


2 Edit settings WM Storage Policy.  Datastore Default "| 四 
vw 2a Selecanameandfolder The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the 
w 2b Selecta compute resource virtual machine configuration files and all of the virtual disks. 


V 2c Select storage Name Capacity Provisioned Free 


Type Storage DRS 


2d Select compatibility H vsanDatastore. 5.76 TB 4.50 TB 2.65TB vsan 
2e ihu queat.S E esxi-hp-3-local 136.50 GB 149 GB 135.01 GB VMFS 5 


21 Customize hardware 


3 Ready to complete 





Compatibility. 


© Compatibility checks succeeded. | 


| Back || Next | Finish 








图 6-8 VSAN 6.0 中 被 选中 的 Datastote Default (数据 存储 默认 ) 策略 


不 过 ， 当 选择 了 新 的 虚拟 机 存储 策略 (My first policy) 后 ， 束 可 以 看 见 VSAN 数 据 仔 储 是 兼容 的 ， 如 图 6-9 所 示 。 


1 Select creation type vemctatorage 


Select the datastore in which to store the configuration and disk files 
w^ 1a Select a creation type 


2 Edit settings VM Storage Policy. | My first policy "|O 
v^ 2a Selecta name and folder The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the 


v 2b Selecta compute resource virtual machine configuration files and all ofthe virtual disks. 


2c Select storage Name Capacity Provisioned 


2d Select compatibility Compatible 


Type Storage DRS 


2e Selecta guest OS EI vsanDatastore 5776 TB 4,50 TB 2.65 TB 
2f Customize hardware incompatible 


E esxi-hp-2-local 136.50 GB 1.49 GB 135.01 GB 
3 Ready to complete 


Compatibility: 





Finish 


图 6-9 ”选中 My first policy， 并 且 VSAN 数 据 存储 是 兼容 的 


很 重要 的 一 点 是 ， 在 最 初 的 VSAN 发 行 版 本 中 ， 这 个 兼容 性 检查 就 好 像 创 建新 的 虚拟 机 人 存储 策略 向 导 程序 中 的 matching 
resources (匹配 资源 ) 那 部 分 一 样 ， 只 是 简单 地 意味 着 VSAN 已 经 理解 了 策略 的 内 容 ， 它 并 不 意味 着 VSAN 群 集 可 以 满足 要 求 ， 
这 只 有 当 虚 拟 机 被 真正 部 署 的 时 候 才 会 知道 。 不 过 现在 VSAN 6.0 的 改进 可 以 通过 进行 验证 检查 来 保证 VSAN 可 以 满足 策略 中 的 
要 求 。 这 包括 验证 群集 中 是 否 有 足够 数量 的 主机 来 满足 允许 的 故障 数 的 要 求 ， 以 及 验证 是 否 有 足够 的 容量 设备 来 满足 每 个 对 象 的 
条 带 数 的 要 求 。 


当 虚 拟 机 部 署 完成 后 ， 我 们 就 可 以 检查 虚拟 机 对 象 的 布局 。 点 击 Monitor (监控 ) 导航 到 虚拟 机 视图 ， 并 选择 Policies (R 
略 ) ， 如 图 6-10 所 示 。 从 这 里 我 们 可 以 看 见 虚 拟 机 存储 对 象 的 布局 ， 例 如 虚拟 机 主页 名 字 空 间 和 虚拟 机 磁盘 文件 (VMDK) 。 
虚拟 机 主页 名 字 空 间 是 存储 .vmx 虚 拟 机 摘 述 文件 和 其 他 虚拟 机 所 必需 的 配置 文件 的 地 方 。 这 些 组 成 VSAN 数 据 存 储 上 的 虚拟 机 的 
仓储 对 象 在 第 2? 章 中 已 经 具体 讨论 过 了 。 


ECIOCOCECOETEIEOEOCZ 
ET: 


Name VM Storage Policy Compliance Status Last Checked 
E VM home ES My first policy Compliant 12/18/2015 9:37 AM 


& Hard disk 1 ES My first policy w Compliant 12/18/2015 9:37 AM 





图 6-10 AZURA X Compliant 〈 合 规 的 ) 


这 个 视图 的 位 置 和 最 初版 本 的 VSAN 不 同 。 在 早期 的 版 本 中 ， 需 要 导航 到 VM view (虚拟 机 视图 ) , Ex Manage ( 管 
理 ) ， 然 后 选择 VM Storage Policy (虚拟 机 存储 策略 ) 。 


可 以 看 网 ，2 个 对 象 都 是 合 规 的 。 换 而 言 之 ， 它 们 都 满足 虚拟 机 存储 策略 中 定义 的 功能 要 求 。 这 意味 着 虚拟 机 可 以 容忍 
VSAN 群 集中 的 一 个 故障 并 仍然 具有 一 个 全 功能 的 可 用 的 存储 对 象 。 此 时 选择 Physical Disk Placement. (物理 磁盘 放置 位 置 ) 
选项 卡 可 以 进一步 对 这 2 个 对 象 ( 虚 拟 机 主页 和 硬盘 ) 进行 观察 ， 在 这 里 可 以 看 见 组 件 的 RAID-1 (镜像 ) 配置 ， 如 图 6-11 所 


j 
4 
o 


ee - (Q Filter -) 


VM Storage Policy Compliance Status Last Checked 
ES My first policy w Compliant 12/18/2015 9:37 AM 
E5 My first policy wv Compliant 12/18/2015 9:37 AM 











2items [5$ 


Compliance Failures | Physical Disk Placement | 
VM - Hard disk 1 : Physical Disk Placement 
(Q Filter =) 


Flash Disk Name Flash Disk Uuid HDD Disk Name HDD Disk Uuid 
v RAID1 


Component | g esxi-hp-03rai.. | ÆA Local FUSIONIO Disk (eui.d.. | 523c2afa-838a-7b28-d098-243... HP Serial Altached SCSI Dis... | 523be3e9-841 1-ea6b-G 
Component j 目 esxi-hp-04.rai.. | ÆA Local FUSIONIO Disk (eui.c.. | 527c18b1-683b-5a2b-e75c-ed .. HP Serial Attached SCSI Dis... | 52d8257a-27d1-44c5-a 
Witness | ü esxi-hp-01.rai.. | Æ Local FUSIONIO Disk (eui4.. | 523484fa-f681-ebd5-67b5-b266... HP Serial Altached SCSI Dis... 52t4b9de-5ea7-1c98-6; 




















4items [$7 


图 6-11 物理 磁盘 放置 


6.2 THEE: FTT=1,SW=2 


接 下 来 我 们 试 试 男 一 个 策略 设置 ， 添 加 另外 一 个 功能 。 这 次 ， 我 们 将 使 用 一 个 比 第 一 个 例子 具有 更 多 贷 源 的 群集 来 满足 额外 
的 要 求 。 这 次 我 们 将 要 求 将 可 允许 的 故障 数 设 为 1 并 将 每 个 对 象 的 磁盘 市 数 设 为 2。 我 们 先 来 创建 这 样 一 个 虚拟 机 存储 策略 并 用 


这 个 策略 来 部 署 一 台 虚 拟 机 ， 然 后 看 看 对 不 同 的 虚拟 机 存储 对 象 的 布局 会 产生 何 种 影响 。 在 这 个 例子 中 ， 我 们 会 设 定 一 个 将 
RAID-0 条 带 配 置 做 成 了 镜像 的 RAID-1 配 置 ， 这 就 是 4 个 磁盘 组 件 ， 其 中 每 个 RAID-0 条 带 含有 2 个 组 件 ， 然 后 再 两 两 镜像 组 成 
RAID-1 的 配置 。 图 6-12 显 示 的 是 一 个 逻辑 视图 。 
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图 6-12 VSAN I/O 流 : 条 带 化 ，2 台 主机 


现在 我 们 已 经 创建 了 虚拟 机 存储 策略 并 置 备 了 一 台 虚 拟 机 。 接 下 来 看 看 我 们 的 理论 到 底 对 不 对 。 


如 图 6-13 所 示 ， 创 建新 策略 时 ， 在 配置 规则 集 的 Vendor 的 地 方 还 是 要 选择 VSAN 以 显示 所 需 的 VSAN 功 能 选项 。 为 了 满足 
虚拟 机 的 要 求 ， 我 们 将 每 个 对 象 的 磁盘 市 数 配置 成 2， 并 将 可 人 允许 的 故障 数 配置 成 1。 磁 盘 条 市 的 数量 定义 的 是 最 小 值 ， 它 还 取 
决 于 虚拟 磁盘 的 大 小 和 容量 层 设备 的 大 小 ， 一 个 虚拟 磁盘 可 能 会 横 跨 多 个 (物理 ) 硬盘 或 主机 。 


v 1 Name and description Rule-Set 1 
Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w 2 Rule-Sets The VM storage policy will match datastores that satisfy all the rules in atleast one ofthe rule-sets. 


2a Rule-Set 1 


3 Storage compatibility AN āäë Storage Consumption Model 


ee ure eer e e o e MICI 
would consume: 





wmaerordsksmpesperoied OE | © | strage space 


200.00 GB 


Initially reserved storage space 


0.00 B 


Rules based on tags Reserved flash space 


0.00 B 
Add tag-based rule... 


Add another rule set | | Remove this rule set 





图 6-13 ”虚拟 机 存储 策略 : FTT=1 且 SW=2 


现在 已 经 创建 了 一 个 新 的 虚拟 机 存储 策略 ， 接 下 来 看 看 虚拟 机 置 备 工作 流 ， 如 图 6-14 所 示 。 


1 Select creation type Select storage 
| l l Select the datastore in which to store the configuration and disk files 
w' 1a Selecta creation type 


Sg VM Storage Policy e 


w^ 2a Selecta name and folder The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the 
v 2b Selecta compute resource virtual machine configuration files and all ofthe virtual disks. 


EENT . | | [ Sioage bns 
2d Select compatibility | | | | | 
2e Selecta guest OS 
21 Customize hardware 

3 Ready to complete 














Compatibility. 


Q compatibility checks succeeded. 





图 6-14 VSAN 数 据 存储 和 策略 ftt=1，sw=2 兼 容 
在 这 个 例子 中 ， 我 们 特地 把 新 建 的 策略 起 名 为 ftt=1，sw=2， 现 在 可 以 看 见 可 用 的 数据 存储 就 分 成 了 2 个 不 同 的 类 别 : 
- Compatible (兼容 ) 
. Incompatible (不 兼容 ) 


如 你 所 见 ， 选 择 了 新 建 的 虚拟 机 存储 策略 后 ， 只 有 VSAN 数 据 存储 是 兼容 的 。 这 是 因为 只 有 VSAN 数 据 存储 才能 理解 置 于 虚 


拟 机 存储 策略 中 的 这 些 功能 要 求 ， 而 其 他 数据 存储 (在 这 个 例子 中 是 本 地 VMFS， 但 是 也 可 以 是 基于 SAN 的 VMFS 或 NFS) 都 无 
法 理解 这 些 策略 要 求 ， 因 此 被 放 在 了 不 兼容 这 个 分 类 中 。 不 过 如 果 你 仍然 想 放 的话 ， 这 些 不 兼容 的 数据 存储 也 是 可 以 选择 的 。 如 
果 选 择 了 一 个 不 兼容 的 数据 存储 ， 就 会 收 到 警告 ， 告 知 数据 存储 与 给 定 的 虚拟 机 存储 策略 不 匹配 ， 并 且 这 个 策略 会 显示 为 不 适 
Hi. 


部 署 完 虚拟 机 之 后 ， 我 们 再 来 检查 一 下 物理 磁盘 的 布局 情况 ， 如 图 6-15 所 示 。 


从 图 6-15 中 可 以 看 出 ， 为 了 满足 虚拟 机 存储 策略 中 天 于 FTT 的 要 求 ， 已 经 创建 了 RAID-1 (镜像 ) 配置 。 现 在 你 还 可 以 看 见 
一 些 额外 的 信息 一 一 每 个 副本 都 是 由 一 个 RAID-0 条 市 配置 组 成 的 ， 每 个 条 市 包含 2 个 组 件 ， 这 满足 了 SW=2 的 要 求 。 


这 里 还 创建 了 一 个 见证 组 件 。 现 在 要 指明 的 是 ， 见 证 组 件 的 数量 与 组 件 在 群集 中 的 主机 和 磁盘 上 分 布 的 情况 直接 相关 。 取 决 
于 VSAN 群 集 的 大 小 ， 可 能 会 需要 创建 几 个 额外 的 见证 盘 来 确保 故障 时 (尤其 是 主机 故障 时 ) 虚拟 机 对 象 的 组 件 仍然 有 50% 可 
用 。 这 个 4 节点 VSAN 和 群集 的 例子 中 ， 因 为 组 件 被 分 散 到 了 每 一 从 单独 的 ESXi 主 机 上 ， 因 此 单个 见证 盘 束 足够 保证 在 一 台 主 机 故 
障 的 时 候 保 持 可 用 组 件数 大 于 50%。 


CJ VM2 | Actions ~ 


Getting Started Summary | Monitor | Manage Related Objects 


[issues | Poriomonco NNNM Heck | virtual SAN | Tasks | Evonts | Uaaton 
一， (ane > 


VM Storage Policy Compliance Status Last Checked 
ES fit-1,5w-2 w Compliant 12/18/2015 10:54 AM 
ES fit-1,5w-2 ww Compliant 12/18/2015 10:54 AM 


2items [3- 


Compliance Failures | Physical Disk Placement | 
VM2 - Hard disk 1 : Physical Disk Placement 


三 (Q Filter T | 
Component State Host Flash Dis Name Flash Disk Uuid HDD Dis Name HDO Disk Uuid 
Witness gi Active esxi-hp-04.rai.. (8 Local FUSIONIO Disk (eui.c.. | 527c18b1-583b-5a2b-e75c-fed .. HP Serial Attached SCSI Dis... | 52c56ad9-19fd-6374-b5 
v RAID1 


v RADO 


Component go Active esxi-hp-01 rai... Local FUSIONIO Disk (eui.4.. | 523484fa-f681-ebd5-67b5-b266... HP Serial Attached SCSI Dis... | 52f4b9de-5ea7-1c98-62 


Component gi Active esxi-hp-01.rai... Local FUSIONIO Disk (eui.4.. | 523484fa-f681-ebd5-67b5-b2e6.. (HÀ HP Serial Attached SCSI Dis... | 52595698-68c9-bf32-60 
v RADO 


Component d Active esxi-hp-03.rai.. | (8 Local FUSIONIO Disk (eui.d.. | 523c2afa-838a-7b28-d098-2d3... HP Serial Attached SCSI Dis... | 523be3e9-8411-ea6b-9 
Component gi Active esxi-hp-03.rai... Local FUSIONIO Disk (eui.d.. |523c2afa-838a-7b28-d098-2d3... HP Serial Attached SCSI Dis... | 529f5f199-39cd-3674-c4c 





图 6-15 ”物理 磁盘 放置 位 置 ， 策 略为 ftt=1，sw=2 


注意 ， 在 VSAN 的 最 初版 本 中 ， 见 证 组 件 曾 经 是 仲裁 的 唯一 方法 。 从 VSAN 6.0 引 入 了 一 种 新 的 仲裁 机 制 ， 它 及 用 每 个 组 件 
一 个 投票 权 的 万 法 。 这 意味 着 可 能 会 出 现 仲裁 可 以 仅仅 通过 组 件 的 投票 来 实现 而 不 需要 见证 组 件 的 情况 。 


有 趣 的 是 ，VM Home (虚拟 机 主页 ) 名 字 空 间 不 会 去 匹配 每 个 对 象 的 磁盘 市 数 的 要 求 ， 它 只 会 满足 允许 的 故障 数 的 要 求 。 
因此 ， 如 果 去 查看 虚拟 机 主页 名 字 空 间 的 话 ， 会 看 见 组 件 没 有 RAID-0 配 置 ， 如 图 6-16 所 示 。 
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Compliance Failures | Physical Disk Placement | 


VM2 - VM home : Physical Disk Placement 
— E 

| Type | Host | Flash Disk Name 

| v RAID 1 

| Component 国 esxi-hp-03.rai... 

国 esxi-hp-04 rai... 


日 esxi-hp-01 rai... 


Local FUSIONIO Disk (eui.d... 
Local FUSIONIO Disk (eui.c... 
Local FUSIONIO Disk (eui.4... 


Component 
Witness 


图 6-16 ”虚拟 机 主页 名 字 空 间 没 有 条 


ga: FIT=2, SW-2 


在 下 面 这 个 例子 中 ， 我 们 创建 了 另 一 个 虚拟 机 存储 策略 ， 将 每 个 对 象 的 磁盘 带 数 设 成 2， 并 把 允许 的 故障 数 设 成 2， 
着 VSAN 群 集 必 有 


页 能 容忍 2 个 不 同 的 故障 (主机 、 网 络 或 磁盘 故障 ) 。 考 虑 到 


的 磁盘 布局 如 图 6-17 所 示 。 


来 ^ 





bcc 1 


图 6-17 VSAN I/O 流 : 


天 于 这 个 配置 有 这 


首先 ， 根 据 要 求 创 建 策略 ， 如 图 6-18 所 示 。 
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HP Serial Attached SCSI Dis... 
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HP Serial Attached SCSI Dis... 


忍 的 “ 双 主 机 故障 ”和 2 个 磁盘 条 


Q Filter X 
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5248257 a-27d1-44c5-a! 
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这 意味 
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么 几 个 考量 因素 : 因为 我 们 继续 使 用 RAID-1 来 容忍 故障 ， 因 此 群集 中 需要 n+ 1 个 数据 拷贝 和 2n+1 人 台 主 机 
容忍 n 个 故障 。 因 此 ， 要 容忍 2 个 故障 群集 中 殉 需 要 3 份 数据 和 最 少 ? 台 主机 。 


v^ 1 Name and description Rule-Set 1 


Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w 2 Rule-Sets The VM storage policy will match datastores that satisfy all the rules in at least one ofthe rule-sets. 


3 strapecompatbay Rules based on data services Storage Consumption Mode 





4 Ready to complete Number of failures to tolerate €9 ROSS E] Q | Avirtual disk with size 100 GB 


would consume: 


300.00 GB 
<Add rule> Initially reserved storage space 


0.00 B 
Rules based on tags 


Reserved flash space 
Add tag-based rule... 0.00 B 








Add another rule set Remove this rule set 





图 6-18 设置 为 FTT=2,，SW=2 


接 下 来 用 这 个 策略 部 署 一 台新 虚拟 机 ， 如 同 预想 的 一 样 ， 只 有 VSAN 数 据 存储 兼容 这 个 ftt=2，sw=2 的 虚拟 机 存储 策略 ， 如 
图 6-19 所 示 。 


1 Select creation ypo vM Sergo Poloz: (ioci Tejo 


w' 1a Select a creation type The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the virtual 
2 Edit ngs machine configuration files and all of the virtual disks. 


w^ 2a Select a name and folder 
w' 2b Select a compute resource 
TI 2c Soiectstorage 

2d Select compatibility 

2e Select a guest OS 

2f Customize hardware 


3 Ready to complete 





图 6-19 VSAN 数 据 存储 与 策略 ftt=2，sw=2 相 兼容 
现在 虚拟 机 和 置 备 已 完成 ， 我 们 到 物理 磁盘 放置 位 置 视图 检查 一 下 虚拟 机 存储 对 象 是 如 何在 主机 和 磁盘 上 分 布 的 。 
首先 看 一 下 这 人 台 虚 拟 机 的 VMDK (或 hard disk 1) ， 如 图 6-20 所 示 。 


现在 我 们 可 以 看 见 VSAN 对 这 人 台 虚 拟 机 的 虚拟 磁盘 实施 了 额外 的 RAID-0 条 带 配 置 。 有 一 点 需要 注意 ， 物 理 磁 盘 布局 的 位 置 
在 不 同 版 本 之 间 有 所 不 同 。 在 VSAN 最 初 的 版 本 中 ， 要 导航 到 Manager>VM Storage Policies。 在 后 续 的 版 本 中 ， 这 个 视图 被 
更 改 到 了 Monitor>VM Storage Policies。 你 会 在 本 书 中 看 见 这 些 不 同 的 VSAN 版 本 的 堆 图 。 对 RAID-0 条 市 配置 来 说 ， 全 少 要 
有 一 个 RAID-0 条 融 配 置 中 的 所 有 组 件 都 必须 完好 无 损 。 这 束 是 需要 第 3 个 RAID-0 条 融 配 置 的 原因 了 。 你 或 许 会 想 ， 如 果 第 一 个 


RAID-0 条 市 配置 中 的 第 一 个 组 件 丢失 ， 同 时 第 2 个 RAID-0 条 市 配置 中 的 第 2 个 组 件 丢 失 ， 或 许 此 时 VSAN 还 能 利用 剩 下 的 组 件 来 
保持 存储 对 象 可 用 。 事 实 并 非 如 此 。 要 在 群集 中 容 妨 2 个 同时 故障 ， 第 3 个 RAID-0 条 市 配置 是 必需 的 ， 因 为 2 个 故障 可 能 会 导致 2 
个 RAID-0 条 市 配置 同时 无 法 使 用 。 这 也 是 所 有 的 RAID-0 条 市 配置 都 要 在 一 个 RAID-1 配 置 中 保持 镜像 的 原因 。 这 个 策略 设置 的 
夺 线 是 可 以 容 妨 群集 中 任意 2 台 主 机 故障 的 同时 保证 虚拟 机 数据 可 被 访问 。 如 图 6-20 中 可 看 见 的 那样 ， 组 件 保存 在 这 个 8 节点 
VSAN 群 集中 6 台 不 同 的 ESXi 主 机 上 ， 它 们 分 别 是 : mia-cg07-esx11、mia-cg07-esx13、mia-cg07-esx14、mia-cg07- 
esx15、mia-cg07-esx16 以 及 mia-cg07-esx018。 


接 下 来 看 一 看 虚拟 机 主页 名 字 空 间 ， 如 图 6-21 所 示 。 
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Witness 国 Active mia-cg07 -esx018.vmw... Local ATA Disk (naa.500253.. | 526da91a-b057- 
~ RAID1 
- RAIDO 
Component | 国 Active mia-cg07-esx016.vmw... Local ATA Disk (naa.500253... | 52bd5320-f95d- 
Component | {j Active mia-cg07-esx018.vmw... Local ATA Disk (naa.500253... | 526da91a-b057- 
- RAIDO 
Component Bj Active mia-cg07-esx011.vmwc... | Œ Local ATA Disk (naa.500253... | 527b16ab-d7d2- 
Component fj Active mia-cg07-esx014.vmw... Local ATA Disk (naa.500253.. | S2ddadOb-1491- 
- RAIDO 
Component [Bj Active mia-cg07-esx013.vmw... Local ATA Disk (naa.500253... | 52aBea6f-c7b7« 
Component Bj Active mia-cg07-esx015.vmw... Local ATA Disk (naa.500253... | 52b5d2be-0681- 
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图 6-20 4&)f Tftt-2, sw=2 R h9 Bb AA A PEE E ACE 


i wm-ftt-of-2-sw-of-2 | Actions ~ 


Getting Started Summary Monitor | Manage | Related Objects 


VM Storage Policy assignments Manage VM Storage Policies... 
e Sc 


Name VM Storage Policy Compliance Status 
C] VM home ES fit2,5w-2 «^ Compliant 
& Hard disk 1 ES fti22,5w-2 w^ Compliant 


ibd 2!tems [3 
| Physical Disk Placement | Compliance Failures 


vm-ftt-of-2-sw-of-2 - VM home : Physical Disk Placement 


Component State Host SSD Disk Uuid 


lg Active g mia-cg07-esx016.vmw... Local ATA Disk (naa.500253... | 52bd5320-f9: 
Bl Active 日 mia-cg07-esx015.vmw... Local ATA Disk (naa.500253... | 52b5d2be-0€ 
E Active g mia-cg07-esx011.vmwec... Local ATA Disk (naa.500253... | 527b16ab-d7 
lg Active g mia-cg07-esx013.vmw... Local ATA Disk (naa.500253... | 52aBea6f-c71 
Bl Active g mia-cg07-esx012.vmw... Local ATA Disk (naa.500253... | 52f4ec56-0d. 








图 6-21 当 策 略 是 ftt=2，sw=2 时 ， 虚 拟 机 主页 的 物理 磁 僵 布局 


前 面 已 经 诗 过 ， 虚 拟 机 主页 名 字 空 间 不 实施 磁盘 条 市 策略 ,但 是 的 确 会 实施 允许 的 故障 数 策 略 。 所 以 布局 视图 中 没有 RADI- 
0 配置 ， 但 我 们 仍 可 看 见 RAID-1 镜 像 配 置 ， 其 中 通过 3 个 副本 来 满足 虚拟 机 存储 策略 中 FTT 设 成 2 的 要 求 。 此 外 我 们 还 可 以 在 这 里 
观察 到 见证 盘 数 量 的 增加 。 记 住 ， 要 使 这 个 对 象 保持 在 线 状 态 ， 虚 拟 机 主页 名 字 空 间 对 象 必须 有 50% 以 上 的 组 件 〈 或 根据 仲裁 机 
制 50% 的 投票 ) 可 用 才能 保持 在 线 ， 从 而 在 即使 丢失 2 个 副本 的 情况 下 ， 仍 然 有 一 个 副本 (也 融 是 虚拟 机 主页 名 字 空 间 的 一 个 拷 
Ul) 可 用 。 因 此 ， 即 使 2 个 故障 同时 及 生 让 我 们 损失 了 2 个 配置 副本 ， 我 们 仍然 有 超过 ?0% 的 组 件 可 用 。 


6.4 TRHEiER: FTT=1, OSR=50% 


下 一 个 例子 中 我 们 将 要 探索 一 个 不 同 的 功能 。 如 前 所 述 ，VSAN 上 部 署 的 所 有 对 象 默 认 都 是 精简 置 备 的 。 这 意味 着 它们 一 开 
台 是 不 占用 磁盘 空间 的 ， 但 是 会 随 着 虚拟 机 内 容 尸 操作 系统 的 运行 慢 慢 地 按 需 增长 。 不 过 ,使 用 虚拟 机 存储 策略 中 的 对 象 空间 预 
留 (OSR) 这 个 策略 设置 ， 可 以 在 虚拟 机 部 署 的 时 候 预 先 为 其 保留 一 定 百 分 比 的 磁盘 空间 。 上 默认 情况 下 ， 对 象 空间 预 留 的 值 是 
0%， 这 就 是 VSAN 数 据 存 储 上 的 虚拟 机 都 是 精简 置 备 的 原因 。 如 果 想 要 为 一 从 虚拟 机 预 留 所 有 的 空间 (类似 于 传统 的 “ 厚 置 


备 ” 的 磁盘 ) ， 你 可 以 用 这 个 参数 来 实现 一 一 把 对 象 空间 预 留 值 设置 成 100%。 而 这 个 例子 中 我 们 会 设 成 一 个 中 间 值 。 请 注意 ， 
如 本 书 前 文 所 强调 过 的 ， 如 果 去 重 和 压缩 空间 空间 效率 特性 在 VSAN 数 据 存储 上 被 启用 ， 那 么 对 象 空间 预 留 就 只 能 被 设置 为 0% 
或 100%。 


我 们 从 在 虚拟 机 部 署 时 预 留 50% 磁 盘 空 间 的 例子 开始 ， 如 图 6-22 所 示 。 这 个 百分比 的 数值 指 的 是 VMDK 的 大 小 ， 如 果 要 部 
署 一 个 100GB 的 VM DK，50% 的 对 象 空间 预 留 值 就 意味 着 应 该 预 留 50GB 的 磁盘 空间 。 不 过 ， 按 照 存 储 消费 模型 ,任意 策 略 中 都 
隐 合 着 允许 的 故障 数 为 1 的 设置 ， 因 此 ， 初 始 预 留 的 存储 空间 为 100GB。 


É& Create New VM Storage Policy 








w' 1 Name and description Rule-Set 1 
Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w 2 Rule-Sets The VM storage policy will match datastores that satisfy all the rules in atleast one ofthe rule-sets. 


2a Rule-Set 1 
3 Storage compatibility —— Storage Consumption Model 


4 Ready to complete Object space reservation (%) © &@  Avirtual disk with size 100 GB 


would consume: 
«Add rule» | z Storage space 
200.00 GB 


Rules based on tags Initially reserved storage space 
100.00 GB 


Add tag based rule... Reserved flash space 
0.00 B 


Add another rule set | | Remove this rule set 
一 一 





图 6-22 p mp TAE 
—HTRHRGIESTCEE, BIAR HTE, SUÉI6-23Bmmn. 


H New Virtual Machine 


1 Select creation type VM Storage Poley o 
w 1a Selecta creation type The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the virtual 
2 Edits machine configuration files and all of the virtual disks. 
w' 2a Select a name and folder re Mer Ute 
Compatible 
w' 2b Select a compute resource | 
目 vsanDatastore 8.73TB 179.4 GB 


Vd 2c Select storage msn 


2d Select compatibility 目 mia_vnx01_cg07_01 492.37 GB 633.62 MB 491.75 GB 
2e Select a guest OS EJ datastore1 (3) 2.5 GB 597 MB 1.92 GB 


2f Customize hardware 
3 Ready to complete 


Compatibility: 


© Compatibility checks succeeded. 





图 6-23 VSAN 数 据 存 储 理解 对 象 空间 预 留 的 要 求 


VSAN 数 据 存 储 能 够 读 慌 这 个 策略 设置 ， 因 此 显示 为 Compatible (RE) ， 而 其 他 数据 仔 储 则 家 标注 为 Incompatible (不 
ARES) 。 如 前 所 述 ， 我 们 没有 选择 可 允许 的 故障 数 这 个 条 件 。 重 申 一 次 ， 即 使 没有 配置 ， 人 允许 的 故障 数 为 1 这 个 设置 忌 是 隐 性 存 


在 的 ， 因 此 ， 如 果 策 略 中 没有 特别 设 定 FTT 的 值 ， 融 会 按照 FTT=1 来 实施 。 可 以 通过 检查 物理 磁盘 布局 (Physical Disk 
Placement) 视图 ， 查 看 到 底 有 没有 RAID-1 配 置 来 确认 这 一 点 。 只 有 当 FTT 明 确 地 在 策略 中 设置 为 O 时 ， 才 不 具备 RAID-1 的 配 


ELL 


Hs 


首先 ,我 们 在 VM home (虚拟 机 主页 ) 名 字 空 间 视图 中 验证 了 的 确 存在 RAID-1 配 置 ， 如 图 6-24 所 示 。 


Issues | Performance | Polic Virtual SAN | Tasks | Events | Utilization 
m— 
C Q - 


VM Storage Policy i a Compliance Status 


Q Filter X 
Last Checked 


E osr-5096 


| v Compliant 12/18/2015 11:19 AM 


Compliance Failures | Physical Disk Placement 


p 


VM3 - VM home : Physical Disk Placement 


"一 "B Q Filter B 
Type 


Flash Disk Name Flash Disk Uuid HOD Disk Name HOD Disk Lluid 


Witness j g esxi-hp-02 rai... Local FUSIONIO Disk (eui.a.. |52929788-315e-9967-f5fe-202d... HP Serial Attached SCSI Dis... |52800334-1eac-9211-7286-ad6d31e4f7ed 
+ RAID1 





Component j g esxi-hp-01.rai... Local FUSIONIO Disk (eui.4..  523484fa-f681-ebd5-67b5-b2e6... HP Serial Attached SCSI Dis... 52595698-68c9-bf32-60fc-e046f77ade39 
Component | j g esxi-hp-04.rai... Local FUSIONIO Disk (eui.c.. | 527c18b1-683b-5a2b-e75c-fed... HP Serial Attached SCSI Dis... | 524d82573-2741-44c5-a952-b8eb3524a620 





图 6-24 虚拟 机 主页 : 即使 没有 在 策略 中 指定 也 可 以 推算 出 允许 的 故障 数 


我 们 还 可 以 确认 硬盘 也 具有 镜像 配置 ， 即 使 没有 专门 在 策略 中 进行 设 定 ， 它 还 是 具有 可 以 容纳 1 个 故障 的 能 力 ， 如 图 6-25 所 


AE, 


issues [Vertmancs [POTSER cam | aso [Tas [Evers [Vtzuton 


em. 
Name 


Compliance Status Last Checked 
E VM home - 


ww Compliant 12/18/2015 11:19 AM 
M 
Compliance Failures | Physical Disk Placement | 


VM3 - Hard disk 1 : Physical Disk Placement 


j— v= 


= Q Filter - 
| | 
Type Component State 14 Host Flash Disk Name Flash Disk Uuid HDO Disk Name HDD Disk Uvid 


Witness gl Adive 目 esxi-hp-04.rai... Local FUSIONIO Disk (eui.c.. | 527c18b1-683b-5a2b-e75c-fed... HP Serial Attached SCSI Dis...  5248257a-27d1-44c5-a952-b8eb3.. 
v RAID1 


Component gl Active 国 esxi-hp-02 rai... Local FUSIONIO Disk (eui.a.. | 52929788-315e-9967-f5fe-202d 
Component gl ^cive 国 esx-hp-03.ai. 图 Local FUSIONIO Disk (eui.d.. | 523c2afa-838a-7b28-d098-2d3.. 


las HP Serial Attached SCSI Dis... | 52800334-1eac-9211-7286-ad6d31... 
. HP Serial Attached SCSI Dis...  523be3e9-8411-ea6b-9917-e1f2a... 





图 6-25 VMDK: 即使 没有 特别 指明 FTT 策 略 设置 ， 其 隐 含 的 值 为 1 


然而 ， 让 我 们 回 到 最 初 提起 的 额外 要 求 上 一 盖 它 要 求 保 留 虚 拟 机 所 需 磁 盘 空 间 的 ?0%。 要 得 看 VMDK 到 搬 消 耗 了 多 少 空 


[B], sides WebzPims3teWsIDatastore» Manager>Files， 虚 拟 机 最 初 的 设 定 是 40GB 的 VMDK， 现 在 我 们 要 把 它 
的 对 和 象 空间 预 留 值 设置 为 590%， 如 图 6-26 所 示 。 


EH vsanDatastore - Actions v 


Getting Started Summary Monitor | Manage | Related Objects 


Ram Detninons | Tos [emissions | Seveauioa Tasis [RE 


[vsanDatastore] VM3 


[ Q Search ) 


H C & ài»wu2x 


- 二 = 


b []79ec7356-f64c-9| 国 ,sddsf 


Modified 
Folder [vsanDatastore] VM3/.sdd.sf 

> Eimgmt-co1.rainp: D VM3.vmsd 12/18/2015 11:22 AM File [vsanDatastore] VM3/VM3.vymsd 

b [:313102956-8242-a:| &s VM3.vmdk 0,973,568.00 KB — 12/18/2015 11:22 AM Virtual Disk ivsanDatastore] VM3/VM3 vmdk 

b 国 WANem E VM3.vmx | 12/18/2015 11:22 AM Virtual Machine 





en VM3/VM3.vmx 
图 6-26 “对象 空 间 预 留 为 50%， 需 要 保留 40GB 中 的 20GB 


如 前 所 述 ， 我 们 可 以 看 见 40GB 的 虚拟 机 硬盘 文件 已 经 部 署 好 了 ， 并 且 已 经 预 留 了 20GB 的 磁盘 空间 ， 等 于 虚拟 机 存储 策略 里 
面 为 这 人 台 虚 拟 机 配置 的 值 一 5096。 


65 Riy: FTT=1, OSR=100% 


现在 来 看 一 下 天 于 对 象 空 间 预 留 的 最 后 一 个 集 略 ， 这 次 要 给 我 们 的 虚拟 磁盘 预 留 全 部 100% 的 空间 。 步 骤 和 前 面 一 样 ， 融 是 
先 创建 一 个 包含 对 象 空间 预 留 要 求 的 策略 ， 只 是 这 次 把 值 设 成 100 而 不 是 50， 如 图 6-27 所 示 。 你 或 许 已 经 猜 到 了 ， 这 意味 着 我 们 
将 预先 保留 虚拟 机 磁盘 的 全 部 空间 ， 与 一 个 厚 置 备 格式 的 虚拟 磁盘 文件 类 似 。 


v^ 1 Name and description Rule-Set 1 
Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w 2 Rule-Sets 


The VM storage policy will match datastores that satisfy all the rules in atleast one ofthe rule-sets. 
2a Rule-Set 1 


3 Storage compatibility Rules based on data Services Storage Consumption Model 


would consume: 
«Add rule» 一 一 一 


Storage Space 
200.00 GB 


Initially reserved storage space 
200.00 GB 
Add tag-based rule... Reserved flash space 
0.00 B 


Rules based on tags 


Remove this rule set 
[me | ( canca | 





图 6-27 对象 空间 预 留 为 100% 


设置 的 步 又 和 前 面 一 样 ， 策 略 仪 仪 包含 
没有 明确 说 明 ， 但 是 隐 合 着 允许 的 故障 数 的 设 定 为 1。 





， 只 是 这 一 次 要 设 成 100%。 和 上 次 一 样 ， 虽 然 策略 里 面 


主 是， 现在 存储 消费 模型 显示 这 个 策略 初始 预 留 的 空间 大 小 和 存储 空间 一 样 ， 例 如 200GB。 芯 略 创建 完成 后 ， 束 可 以 在 虚 
拟 机 部 署 的 时 候 再 次 选择 这 个 策略 了 。 


我 们 可 以 验证 VSAN 数 据 仔 储 和 所 选 的 这 个 策略 兼容 ， 如 图 6-28 所 示 。 


t4j New Virtual Machine 











1 Select creation type Select storage 


Select the datastore in which to store the configuration and disk files 
vV 1a Selecta creation type 


2 Edit settings WM Storage Policy. [osr=100% |— [e] ES 


v^ 2a Selecta name and folder The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the 
v 2b Selecta compute resource virtual machine configuration files and all of the virtual disks. 


YA 2c Select storage Name Capacity Provisioned 


2d Select compatibility Compatible 


Storage DRS 


280 Select a guest OS = vsanDatastore 576 TB 4.63 TB 
2f Customize hardware incompatible 


EJ esxi-hp-3-local 136.50 GB 1.49 GB 135.01 GB 
3 Ready to complete 


«| 


Compatibility: 


© Compatibility checks succeeded. 


Finish | Cancel 








图 6-28 VSAN 数 据 存储 和 虚拟 机 存储 策略 兼容 


下 一 步 是 判断 为 这 个 VM DK 文件 真正 预 留 了 多 人 少 磁 盘 空 间 ? 我 们 再 次 通过 Datastore> Manage>Files 视 图 来 看 一 下 到 底 事 
先 预 留 了 多 少 空间 (如 图 6-29 所 示 ) 。 因 为 对 象 空间 了 预 留 被 设 成 了 100%， 这 次 应 该 看 见 全 部 40GB 的 空间 被 预 留 了 。 


-一 
3*X&" 


Getting Started Summary Monitor | Manage | Related Objects 


Ram Detto | Taos [Pemissons [cese Tasis [E 


[vsanDatastore] VM4 


Ret o Search Results g e t 


b EB d3265356-beee-.|^| Name 
Bg .sdd sf 


Modified Type Path 


Folder [vsanDatastore] VM4/ sdd sf 
> G ecef7356-0a98-f f&y VM4vmdk 41,943,040.00 KB | 12/18/2015 11:37 AM Virtual Disk [vsanDatastore] VM4/VM4 vmdk 


Eg VMware vRealize \ 1.87 KB | 12/18/2015 11:37 AM Virtual Machine [vsanDatastore] VMA/VM4.vmx 
b £:3)770c2656-048b-f : 0.00 KB | 12/18/2015 11:37 AM File [vsanDatastore] VM4/VM4 vmsd 





图 6-29 ” 40GB 磁盘 空间 被 预 贸 


果然 ， 全 部 40GB 磁 盘 空 间 被 事先 预 留 了 。 


6.6 策略 设置 : RAID-5 


现在 让 我 们 来 看 一 看 VSAN 6.2 引 入 的 一 个 新 策略 : RAID-5。 要 配置 一 个 RAID-5 对 象 ， 选 择 failure tolerance method ( 容 
错 方法 ) 策略 设置 ， 并 将 其 设置 成 RAID-5/6， 如 图 6-30 所 示 。 请 注意 存储 消费 模型 。100GB 的 VMDK 只 需 消 耗 133.33GB， 也 


NTI 


ME RLEVMDKAISEIRA/NZ33%. Tz BIZJRAID-TXJ2s Gl ESTRERBS, ARRANA, ERRANA 100%]. 


AA OFAR AANEEN A ATERS, DXBBISBUEHEEEBAZJRAID-5. MRFS E2, Bb 
么 将 会 给 对 象 实施 RAID-6 配 置 。 在 图 6-30 的 例子 中 我 们 已 经 添加 了 人 允许 的 故障 数 的 贫 略 设置 ， 这 里 只 是 为 了 演示 的 目的 。 


4 


ES Create New VM Storage Policy 





w^ 1 Name and description Rule-Set 1 


Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w' 2 Rule-Sets The VM storage policy will match datastores that satisfy all the rules in at least one of the rule-sets. 


2a Rule-Set 1 
3 Storage compatibility Rules based on data services | VSAN | E Storage Consumption Model 


: A virtual disk with size 100 GB 
4 Ready to complete Number of failures to tolerate. @ would consume: 
Failure tolerance method €9 Storage space 


133.33 GB 
RAID-1 (Mirroring) - Performance " 
Initially reserved storage space 


RAID-5/6 (Erasure Coding) - Capacity 0B 


Reserved flash space 


Rules based on tags 0B 


Add tag-based rule... 


Add another rule set | Remove this rule set | 








图 6-30 ”RAID-5 策 略 设置 


如 果 虚 拟 机 使 用 这 个 策略 来 部 署 ， 并 用 之 前 说 过 的 万 法 来 查看 物理 磁盘 布局 的 话 ， 应 该 可 以 看 见 RAID-5 的 布局 横 跨 了 4 个 磁 
盘 和 4 人 台 主 机 。 图 6-31 显 示 了 这 个 物理 磁盘 布局 视图 ， 从 图 中 可 以 看 见 对 象 的 RAID-5 配 置 。 


国 R5 | Actions ~ 


Getting Started Summary i Manage Related Objects 


Issues | Performance | Policies | Vital SAN | Tasks | Events | utilization | 
AS 


Name VM Storage Policy Compliance Status Last Checked 

Eg] VM home ES R5 w Compliant 12/21/2015 1:02 PM 
&x:3 Hard disk 1 ES R5 w Compliant 12/21/2015 1:02 PM 
il 


Compliance Failures | Physical Disk Placement | 


R5 - Hard disk 1 : Physical Disk Placement 


Q Filter X 


Host Capacity Disk Name 


Component ] esxi-d-scndr.... Local ATADisk(t10.ATA . .. | 52b75164-e534-0fe7-b3e0-2d4... Local ATA Disk (naa.500 
Component | esxi-a-pref rai... Local ATA Disk (t10.ATA__... | 5253f4bf-1b26-6098-88f5-d8e9... Local ATA Disk (naa.500 
Component I esxi-b-pref rai... Local ATADisk(t10.ATA  .. | 5292792a-062c-84b8-1659-705... Local ATA Disk (naa.500 
Component | g esxi-c-scndr... Local ATADisk(t10.ATA — .. | 5250f6b0-14f9-b73a-783d-6d5a.. Local ATA Disk (naa.500 





图 6-31 ”从 物理 磁盘 布局 视图 观察 RAID-5 对 象 


， 上 庶 拟 机 主页 名 字 空 间 也 会 继承 RAID-5 配 置 。 


6.7 策略 设置 : RAID-6 


除了 RAID-5 之 外 ，VSAN 6.2 还 支持 在 容量 优化 的 方式 下 容忍 2 个 故障 的 选项 ， 这 就 是 RAID-6。 要 配置 一 个 RAID-6 对 象 ， 
选择 failure tolerance method (容错 方法 ) 策略 设置 ， 并 将 其 设置 成 RAID-5/6， 同 时 将 允许 的 故障 数 设置 为 2， 如 图 6-32 所 
示 。 请 注意 存储 消费 模型 。100GB 的 VMDK 只 需 消耗 150GB， 也 就 是 只 比 VMDK 的 实际 大 小 多 50%。 而 之 前 为 RAID-1 对 象 创建 
策略 时 ， 如 果 FTT 设 为 2， 因 为 镜像 拷贝 的 缘故 ， 实 际 要 额外 消耗 200% 的 空间 。 这 意味 着 一 个 100GB 的 VMDK 需 要 在 后 端 占用 
300GB 的 磁盘 空间 。 


v^ 1 Name and description Rule-Set 1 
Select rules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
w' 2 Rule-Sets 


The VM storage policy will match datastores that satisfy all the rules in at least one of the rule-sets. 
3 Storage compatibility —— Morge ConsumpAbe MOON 


A virtual disk with size 100 GB 
4 Roady to completo Number ottauros towers @ | wanans 


Failure tolerance method 9 RAID-5/6 (Erasure Coding) - Capa... | » | €9 Storage space 


150 GB 


italy reserved storage spaco 


0B 
Reserved flash space 
Rules based on tags 


0B 


Add another rule set l Remove this rule set 


Finish | Cancel 





图 6-32  RAID-6 X s&3X 3. 


如 果 虚 拟 机 使 用 这 个 策略 来 部 署 ， 并 用 之 前 说 过 的 方法 来 查看 物理 磁盘 布局 的 话 ， 应 该 可 以 看 见 RAID-6 的 布局 横 跨 了 6 个 磁 
盘 和 6 人 台 主 机 。 图 6-33 显 示 了 这 个 物理 磁盘 布局 视图 ， 从 图 中 可 以 看 见 对 象 的 RAID-6 配 置 。 


有 “和 
Getting Started Summary | Monitor | Manage Related Objects 


eue - 


Name VM Storage Policy Last Checked 
[3 VM home E5 R RAID 6 aas — i 1/12/16, 1:25 PM 


[Q Filter 


Compliance Failures | Physical Disk Placement | 
R6 - Hard disk 1 : Physical Disk Placement 


Cache Disk Name Cache Disk Uuid 


目 10.160.82.31 Local VMware Disk (mpx.vm... | 529c6ddb-17ea-4e61-c998-6269... Local VMware Disk (m 
P| 10.160.80.177 Local VMware Disk (mpx.vm... | 52d2f4b7-0746-8e2d-5cde-121fe... Æ Loca! VMware Disk (m 
10.160.85.244 Local VMware Disk (mpx.vm... | 528fa44a-383d-3f0b-9957-be4b... Local VMware Disk (m 
10.160.84.79 Local VMware Disk (mpx.vm,.. | 521e48c7-fe89-0971-0d28-71501... Locai VMware Disk (m 
目 10.160.83.83 Loca! VMware Disk (mpx.vm... | 5276e166-a520-c172-89d5-53e2... Loca! VMware Disk (m 
10.160.65.185 Local VMware Disk (mpx.vm... | 526dd79a-4056-6504-0212-5483... Local VMware Disk (m 





图 6-33 ”从 物理 磁盘 布局 视图 观察 RAID-6 对 象 


， 上 庶 拟 机 主页 名 字 空 间 也 会 继承 RAID-6 配 置 。 


68 策略 设置 : RAID-5/6 且 SW=2 


必须 指出 使 用 RAID-5/6 并 不 会 阻止 在 策略 中 使 用 条 市 宫 度 。 这 意味 着 每 个 RAID-5/6 对 每 的 一 部 分 都 可 能 被 条 市 化 成 RAID- 
0 配置 的 组 件 。 在 接 下 来 这 个 例子 中 ， 虚 拟 机 和 前 面 一 样 以 RAID-5 配 置 的 方式 部 署 ， 只 是 这 次 策略 中 包含 有 条 带宽 度 为 2 的 设 
置 。 对 象 配置 在 物理 磁盘 布局 的 视图 如 图 6-34 所 示 。 


注意 ， 虚 拟 机 主页 名 字 空 间 不 会 应 用 条 带宽 度 ， 所 以 它 的 RAID-5 配 置 和 之 前 的 例子 一 样 。 尽 管 上 面 的 例子 中 显示 的 是 
RAID-5 配 置 ， 实 际 上 它 也 同样 适用 于 RAID-6 配 置 。 


6.9 SAARES 


你 或 许 已 经 知道 VSAN 有 一 个 默认 策略 。 这 意味 着 如 果 对 VSAN 数 据 存储 上 部 署 的 某 台 虚拟 机 没有 选择 任何 策略 (虚拟 机 存 
储 策略 选择 的 地 方 设 成 了 None， 如 图 6-35 所 示 ) ， 那 么 会 对 这 人 台 虚 拟 机 应 用 一 个 默认 策略 。 


默认 策略 包含 以 下 功能 : 
` 允许 的 故障 数 为 1 
` 每 个 对 象 的 磁盘 带 数 为 1 
` 闪存 读 取 缓 存 预 留 为 0% 
` 对 象 空间 预 留 为 0% 


强制 置 备 为 茶 用 


Q Filter X 


Compliance Status Last Checked 
w Compliant 12/21/2015 1:11 PM 


R5*SW-2 - Hard disk 1 : Physical Disk Placement 


~ Q Filter 
Type | | isk Na Cache Disk Uuid | Capacity Di Name 
- RAD5 |. | Biva 
v» RADO 
Component ü esxi-d-scnd r... LocalATADisk(t0ATA —.. | 52b75164-e534-0fe7-b3e0-2d4. 加 Local ATA Disk (naa.500: 
Component g esxi-d-scndr... Local ATA Disk (t10:ATA__.. | 52b75164-e534-0fe7-b3e0-2d4... Local ATA Disk (naa.500: 
RAID 0 
Component 国 esx-c-sendr.. Local ATADisk(t10.ATA — .. | 5250f6b0-1419-b733-783d-6d5a.. Local ATA Disk (naa.500: 
Component ü esxi-c-scnd.r... Local ATADisk(t10.ATA — .. | 5250f6b0-1419-b73a-783d-6d5a... Local ATA Disk (naa.500; 
RAID 0 
Component ü esxi-b-pref rai... Local ATADisk(t10.ATA — .. | 52927923-062c-84b8-1659-705... Local ATA Disk (naa.500: 
Component F| esxi-b-pref rai... GA LocalATADisk(t10.ATA — .. | 5292792a-062c-84b8-f659-705.. QM Local ATA Disk (naa.500: 
RAID 0 
Component g esxi-a-pref rai... Local ATADisk(t10.ATA — .. | 5253f4bf-1b26-6098-88f5-d8e69 . Local ATA Disk (naa.500: 
Component B esxi-a-pref.rai... Local ATADisk(t10.ATA — .. | 5253f4bf-1b26-6098-838f5-d3e9... Local ATA Disk (naa.500: 














` 


图 6-34 ”从 物理 磁盘 布局 视图 观察 条 带宽 度 为 2 的 RAID-5 对 象 


VM rios Polor: [es jl 人 
The following datastores are accessible from the destination resource that you selected. Select the destination datastore for the virtual 
machine configuration files and all of the virtual disks. 
w^ 2a Select a name and folder 
ww 2b Select a compute resource 
STI NENNEN 
2d Select compatibility 
2e Select a guest OS 
2f Customize hardware 


3 Ready to complete 














图 6-35 ”不 选择 策略 的 结果 是 使 用 默认 策略 


在 VSAN 的 最 初 友 布 版 本 中 ， 虚 拟 机 部 署 时 ， 虚 拟 机 存储 策略 是 被 设置 成 None (无 ) 的 ， 如 图 6-36 所 示 。 你 还 会 在 检查 物 
理 磁盘 布局 的 时 候 注 意 到 可 允许 的 故障 数 的 值 其 实 设 成 了 1。 在 图 中 你 会 友 现 ， 尽 管 策 略 设 成 了 None (无 ) ， 但 是 虚拟 机 对 象 
已 经 被 配置 成 了 RAID-1， 这 意味 着 即使 不 给 部 署 的 虚拟 机 配置 策略 ，VSAN 仍 然 会 自动 通过 默认 策略 来 提供 (m) 可 用 性 。 





- -» "Mas ur | ; | 








| Physical Disk Placement | Compliance Failures 


test-vm-default-policy - VM home : Physical Disk Placement 


一 v= 














| Component State | Host . |SSD Disk Name 





gg Active 日 mia-cg07-esx017.vmw... Local ATA Disk (naa.500253... 
lg] Active g mia-cg07-esx015.vmw... Local ATA Disk (naa.500253... 
Bl Active mia-cg07-esx013.vmw... Local ATA Disk (naa.500253... 




















图 6-36 ”允许 的 故障 数 =1 是 默认 策略 的 一 部 分 


如 图 6-36 (此 图 仍 截 自 VSAN 第 一 版 ) 所 示 ， 这 人 台 虚 拟 机 并 没有 关联 任何 虚拟 机 存储 策略 。 然 而 ， 如 果 观 察 一 下 虚拟 机 主 
页 ， 我 们 会 发 现 它 已 经 被 自动 配置 成 了 RAID-1， 数 据 已 经 有 了 镜像 拷贝 。 组 成 RAID-1 镜 像 的 2 个 组 件 放 置 在 2 台 不 同 的 ESXi 主 机 
上 (mia-cg07-esx017 和 mia-cg07-esx015) 。 这 意味 着 如 果 其 中 一 台 ESXi 主 机 友 生 了 故障 ， 仍 然 可 以 有 一 份 完 整 的 数据 可 
用 。 另 外 要 注意 见证 盘 ， 它 被 放置 在 了 另外 一 台 与 数据 组 件 所 在 主机 不 同 的 ESXi 主 机 上 (mia-cg07-esx013) 。 这 是 为 了 确保 
当 群 集中 任何 单 台 主 机 发 生 故 障 的 时 候 ， 仍 然 有 多 于 50% 的 组 件 可 用 。 见 证 在 这 个 配置 中 的 作用 是 投票 打破 僵局 。 这 个 配置 保证 
了 即使 群集 中 上 友 生 一 人 台 主 机 故障 仍然 可 以 访问 虚拟 机 主页 对 象 。 


接 下 来 看 看 硬盘 /VMDK。 这 是 默认 集 略 情况 VSAN 数 据 仔 储 中 VMDK 的 布局 情况 。 因 为 这 人 台 虚 拟 机 只 有 单个 VMDK， 也 
就是 这 个 例子 中 用 尸 界面 中 的 Hard disk 1。 如 图 6-37 所 示 ， 组 成 RAID-1 镜 像 的 2 个 组 件 被 置 于 2 人 台 不 同 的 ESXi 主 机 上 ， 名 字 是 
mia-cg07-esx12 和 mia-cg07-esx013， 见 证 盘 则 被 放置 在 ESXi 主 机 mia-cg07-esx016 上 。 


VM Storage Policy assignments Manage VM Storage Policies... 
em 


Name Compliance Status 
E VM home 
& Hard disk 1 


au 2items | 四 ~ 


Physical Disk Placement | Compliance Failures 


test-vm-default-policy - Hard disk 1 : Physical Disk Placement 


—7 "E Q Filter - 


SSD Disk Name SSD Disk Uuid 


日 mia-cg07-esx013.vmw... Local ATA Disk (naa.500253... | 52aBea6f-c7l 
g mia-cg07-esx012.vmw... Local ATA Disk (naa.500253... | 52f4ec56-0d; 
g mia-cg07-esx016.vmw... Local ATA Disk (naa.500253... | 52bd5320-f9: 





NEN | | 
4items | 区 ~ 





图 6-37 使 用 默认 策略 的 Hard disk 1 的 磁盘 布局 
正如 我 们 所 预料 的 ， 所 有 组 件 (包括 见证 组 件 ) 都 存储 在 不 同 的 主机 上 来 保证 高 可 用 性 。 


天 于 VSAN 最 初版 本 中 默认 策略 ， 最 后 要 说 的 是 对 象 空间 预 留 这 个 设置 ， 它 没有 包括 在 默认 世上 略 中 (但 之 后 的 版 中 有 ) 。 而 
是 在 创建 虚拟 机 的 向 导 程序 中 设置 thin (精简 置 备 ) 还 是 thick ( 厚 置 备 ) 的 磁盘 时 实施 的 。 如 果 部 署 虚 拟 机 时 不 更 改 创建 虚拟 
机 向 导 程序 中 的 默认 配置 ，VSAN 数 据 存 储 上 就 会 部 署 一 块 厚 置 备 延迟 置 零 (lazy zeroed thick, LZT) 的 VMDK， 这 和 将 对 象 
空间 预 留 设 置 成 100% 一 样 。 这 在 VSAN 友 布 的 初期 是 一 个 常见 问题 ， 客 尸 常 弟 无 法 理解 为 什么 VSAN 部 署 出 来 的 对 象 是 “ 厚 置 
备 ” 的 而 不 是 “精简 ”的 。 答 案 束 在 这 里 。 在 VSAN 最 初版 本 中 ， 尽 省 存在 着 默认 策略 ,VMware 建议 管理 员 创 建 自己 的 策略 而 
不 是 依赖 默认 策略 来 部 署 虚拟 机 。 在 VSAN 最 初版 本 中 ，VMware 还 提醒 大 家 对 于 修改 默认 策略 要 谨慎 。 这 么 建议 是 因为 通过 在 
vCenter 中 创建 一 个 虚拟 机 存储 策略 来 满足 需求 要 比 修改 默认 策略 容易 得 多 。 此 外 需要 注意 ， 在 VSAN 的 最 初版 本 中 ， 编 辑 默 认 
策略 只 能 通过 ESXi 主 机 上 的 命令 行 来 完成 ， 而 且 这 个 过 程 必须 在 群集 中 的 每 一 人 台 ESXi 主 机 上 重复 进行 。 这 可 能 会 引起 人 为 的 错 
误 ， 所 以 应 该 尽 可 能 避免 。 


这 一 切 在 VSAN 6.0 就 简单 得 多 了 。VSAN 6.0 现 在 有 一 个 针对 VSAN 数 据 存 储 的 默认 策略 ， 叫 做 Virtual SAN default 
storage policy ( 黑 认 存储 策略 ) 。 如 果 想 更 改 这 个 默认 策略 ， 从 vSphere Web 客 户 闯 中 编辑 策略 的 值 即 可 轻松 完成 。 默 认 和 人 策略 
包括 前 面 所 提 及 的 这 些 属性 : 也 就 是 允许 1 个 故障 、 条 带宽 度 为 1、 闪 存 读 取 缓 存 为 0， 对 象 空间 预 留 为 0 以 及 禁用 强制 置 备 。 此 


默认 茱 上 略 中 未 指定 容错 方法 ， 这 意味 着 它 将 默认 被 设置 为 RAID-1 (Mirroring) ， 当 使 用 全 闪存 配置 时 ， 你 可 能 希望 更 改 这 个 策 
略 值 。 


现在 当 部 署 虚拟 机 的 时 候 ， 一 旦 选中 VSAN datastore， 虚 拟 机 存储 策略 束 会 被 设置 成 datastore default (而 在 VSAN 1.0 
这 被 设 为 none) 。 不 再 需要 特别 指定 一 个 策略 。 对 于 VSAN datastore， 数 据 存储 默认 策略 就 是 Virtual SAN default storage 
policy。 


如 果 你 想 在 单个 vCenter Server 上 管理 多 个 VSAN 部 署 ， 不 同 的 默认 策略 可 以 关联 到 不 同 的 VSAN 数 据 存 储 。 这 样 ， 如 果 你 
有 一 个 “测试 与 开发 ”群集 和 一 个 “生产 ”和 群集， 你 可 以 配置 不 同 的 默认 策略 来 关联 这 些 不 同 的 VSAN 数 据 存储 。 


6.10 ”小结 


本 章 覆 盖 了 虚拟 机 存储 策略 的 创建 和 VSAN 数 据 存储 上 的 虚拟 机 部 署 。 有 一 个 策略 设置 没有 包括 在 本 章 沁 围 内 ， 那 就 是 闪存 
读 取 缓 存 预 留 。 这 只 是 因为 从 虚拟 机 布局 的 角度 来 看 ， 这 个 设置 无 法 在 vSphere Web 客 户 端 的 用 户 界 面 中 观察 到 。 不 过 这 个 值 
也 是 以 百分比 的 方式 配置 的 ， 这 与 对 象 空间 预 留 配置 的 方式 完全 一 致 ， 也 是 VMDK 大 小 的 一 个 和 百分比。 例如， 在 一 个 40GB 的 
VMDK 上 设置 了 19% 的 闪存 读 取 缓 存 预 留 ， 就 会 在 闪存 上 保留 400MB 的 读 缓 存 用 于 那 台 指定 的 虚拟 机 。 不 过 ， 如 前 所 述 ， 这 无 法 
通过 vSphere Web 客 户 端 观察 到 。 在 第 10 章 中 ， 我 们 会 告诉 你 如 何 通过 使 用 Ruby vSphere Console (RVC) 来 检查 闪存 读 取 
缓存 预 留 的 数值 。 


没 在 本 章 讨论 的 另外 一 个 策略 设置 是 强制 置 备 。 同 样 ， 当 这 个 设置 配置 进 策略 并 用 于 虚拟 机 部 署 的 时 候 ， 其 效果 也 无 法 通过 
vSphere Web 客 户 新 观察 到 。 如 果 强 制 置 备用 于 部 署 一 人 台 虚 拟 机 ， 那 么 只 要 一 组 完整 的 存储 对 象 可 以 置 备 到 VSAN 数 据 存 储 
上 ， 那 么 虚拟 机 融 可 以 部 署 成 功 。 (通过 强制 置 备 部 署 对 象 的 行为 已 经 在 第 4 章 中 详细 讨论 过 了 。) 策略 可 能 会 包含 诸如 人 允许 的 
故障 数 或 条 带宽 度 或 闪存 读 取 缓 存 预 留 等 要 求 ， 只 要 强制 置 备 被 设 定 了 ， 即 使 这 些 要 求 不 能 满足 ， 虚 拟 机 也 会 被 部 署 。 不 过 ， 此 
时 虚拟 机 会 在 vSphere Web 客 户 端的 用 户 界 面 中 被 标注 为 不 合 规 。 当 可 以 获得 额外 的 人 换 源 的 时 候 ， 虚 拟 机 融会 利用 这 些 额 外 的 
资源 进行 重新 配置 (reconfigure) 使 之 满足 合 规 性 的 要 求 。 一 旦 资源 可 用 ，VSAN 就 会 自动 强制 这 些 策略 而 无 须 管理 员 人 工 发 
起 (重新 配置 ) 。 现 在 你 应 该 明白 利用 强制 置 备 来 部 署 不 符合 策略 要 求 的 虚拟 机 是 危险 的 ， 这 可 能 会 在 群集 友 生 故障 的 时 候 导致 
虚拟 机 不 可 用 。 


有 些 虚 拟 机 存储 策略 的 表现 可 能 不 是 显 性 的 ， 例 如 默认 策略 设置 ， 又 例如 允许 的 故障 数 为 1 这 个 特性 已 经 隐 蕊 在 策略 中 了 ， 
此 外 对 于 某 些 虚 拟 存 储 对 象 只 能 应 用 部 分 策略 设置 ， 这 些 细微 的 夺 别 已 经 在 第 5 章 中 非常 具体 地 解释 过 了 。 


第 7 和 草 ”管理 和 维护 


本 章 涵 匡 了 常见 的 VSAN 管 理 和 维护 流程 及 任务 ， 还 提供 了 一 些 常 见 工 作 流 和 与 日 常 管理 工作 相关 的 例子 。VSAN 的 管理 和 
维护 目 最 初 的 版 本 以 来 变化 相当 大 ， 本 章 不 仅 会 介绍 早期 的 技术 ， 也 会 深入 探讨 在 进化 到 VSAN 6.2 的 过 程 中 不 断 涌现 的 改进 。 


7.1 和 运行 状况 检 否 


说 起 VSAN 的 管理 和 维护 ， 有 一 个 工具 已 经 成 为 管理 员 闭 第 库 中 最 有 价值 的 武器 ， 即 VSAN 运 行 状况 检查 (health 
check) ， 本 章 就 将 从 这 个 工具 说 起 。VSAN 运 行 状况 检查 自 VSAN 6.0 起 引入 ， 起 初 是 作为 vCenter 服 务 器 的 一 个 插件 ， 它 会 依 
次 将 VIB (vSphere Installation Bundle) 推送 到 群集 中 的 每 一 台 ESXi 主 机 来 完成 安装 。 它 必须 在 vSphere 和 VSAN 之 外 被 独立 
安装 。 不 过 到 了 VSAN 6.1， 这 个 特性 就 被 坐 入 在 vVCenter 服 务 器 和 ESXi 主 机 中 了 ， 因 此 现在 要 使 用 这 个 功能 几乎 不 需要 管理 员 
TRE. 


7.4.1. 运行 状况 检查 测试 


运行 状况 检查 最 有 用 的 部 分 可 能 融 是 它 对 群集 各 个 方面 所 执行 的 大 量 测 试 。 它 会 测试 来 保证 所 有 硬件 设备 (包括 驱动 器 版 
Æ) 都 和 VMware 兼 容 性 指南 (VCG) 所 匹配 ， 保 证 网 络 工作 正常 ， 保 证 群集 构建 合理 ， 以 及 存储 设备 没有 任何 报错 。 这 对 于 
进行 VSAN 故 障 排 错 并 帮助 管理 员 找 到 问题 的 根本 原因 具有 不 可 估量 的 价值 。 在 进行 任何 管理 操作 或 维护 任务 之 前 ， 省 理 员 应 该 
总 是 先 去 检查 一 下 运行 状况 ， 来 确保 VSAN 是 完全 健康 的 。 图 7-1 显 示 了 VSAN 6.1 群 集中 的 运行 状况 检查 的 完整 列表 。 每 个 版 本 
都 会 加 入 一 些 新 的 增强 特性 ， 因 此 根据 VSAN 版 本 的 不 同 ， 这 个 列表 也 会 不 同 。 对 于 其 他 场景 例如 VSAN 延 伸 群 集 也 会 有 一 些 额 
外 的 运行 状况 检查 项 。 








44 Virtual SAN Health (Last checked: Today at 2:45 PM) 
» Cluster Parlonnance Test Result Test Name 
Virtual Machine A Warning » Hardware Compatibility 
Consumption 
© Passed » Network 
WM SAN TOREM © Passed All hosts have a Virtual SAN vmknic configured 
v Vitus SAM @ Passed All hosts have matching multicast settings 
Physical Disks © Passed All hosts have matching subnets 
Virtual Disks © Passed Basic (unicast) connectivity check (normal ping) 
Resyncing Components © Passed Hosts disconnected from VC 
© Passed Hosts with connectivity issues 
© Passed Hosts with Virtual SAN disabled 
Proactive Tests Q Passed MTU check (ping with large packet size) 
© Passed Multicast assessment based on other checks 
© Passed Unexpected Virtual SAN cluster members 
© Passed Virtual SAN cluster partition 
© Passed Physical disk 
© Passed Component limit health 
© Passed Component metadata health 
© Passed Congestion 
© Passed Disk capacity 
© Passed Memory pools (heaps) 
© Passed Memory pools (slabs) 
© Passed Metadata health 
© Passed Overall disks health 
© Passed Software state health 
© Passed Data 
© Passed Virtual SAN object health 
© Passed Cluster 
© Passed Advanced Virtual SAN configuration in sync 
© Passed Disk group with incorrect space efficiency configuration 
© Passed ESX Virtual SAN Health service installation 
© Passed Space efficiency configuration consistency 
© Passed Virtual SAN CLOMD liveness 
© Passed Virtual SAN Disk Balance 
© Passed Virtual SAN Health Service up-to-date 
© Passed Limits 
© Passed After 1 additional host failure 
© Passed Current cluster situation 
@ Passed Host component limit 
© Passed Performance Service 
© Passed All hosts contributing stats 
© Passed Performance data collection 
© Passed Stats DB object 
© Passed Stats DB object conflicts 
© Passed Stats master election 
ib 





VSAN 运 行 状况 检查 还 包括 一 个 党 告 /警报 机 制 。 这 意味 着 如 果 其 中 有 一 项 测试 失败 了 ， 它 丈 会 友 出 一 条 警报 来 引起 管理 员 


运行 状况 检查 测试 列表 


的 注意 。 关 于 运行 状况 检查 测试 的 另 一 个 非常 棒 的 特性 就 是 所 有 测试 都 通过 AskVMware 机 制 链接 到 VMware 知 识 库 文章 ， 其 中 
提供 了 关于 这 个 测试 的 内 幕 和 细节 、 测 试 未 通过 的 含义 以 及 如 何 修复 问题 。 要 运行 一 项 运行 状况 检查 测试 ， 在 vCenter 
Inventory (清单 ) 中 选择 VSAN 和 群集 对 象 ， 然 后 选择 Monitoring (监控 ) ， 再 选择 Virtual SAN» Health. (运行 状况 ) > Exi 
retest (重新 测试 ) 按钮 ， 任 何 时 候 都 可 以 重新 发 起 测试 。 不 过 ， 这 些 测试 每 60 分 钟 就 会 自动 运行 一 次 。 我 们 将 在 第 10 章 中 深入 
研究 VSAN 故 障 排 错时 继续 讨论 运行 状态 检查 测试 。 


7.1.2 ”主动 运行 状况 检查 


除了 前 面 介绍 的 运行 状况 检查 之 外 ，VSAN 运 行 状况 检查 还 提供 了 一 套 主动 测试 (Proactive test) 。 通 常情 况 下 ， 你 不 会 
希望 在 生产 环境 中 运行 这 些 主动 测 试 。 不 过 ， 如 果 你 希望 进行 VSAN 的 概念 验证 测试 (Proof-of-Concept) 或 者 在 VSAN 现 场 部 
署 的 初始 阶段 ， 这 些 测试 将 会 非常 有 用 。 这 些 测试 可 以 让 你 在 将 VSAN 投 入 生产 运行 之 前 ， 给 你 一 颗 名 为 “一 切 正 常 ”的 定 心 
丸 。 主 动 测试 包括 : 


- 虚拟 机 创建 测试 
-多 播 性 能 测试 


` 存储 性 能 测试 


简单 地 选择 所 需 的 测试 ， 然 后 点 击 绿色 的 “start” (开始 ) 箭头 就 可 以 开始 测试 。 图 7-2 显 示 了 vSphere Web 客 户 端 中 的 
这 些 主动 测试 。 


Proactive Tests 


Physical Disks 


Virtual Disks —! 
Name 


VM creation test (3 
Multicast performance test. (3 


Resyncing Components 


storage performance test $3 





图 7-2 ”运行 状况 检查 主动 测试 


Web 客 户 闯 中 具体 摘 述 了 这 些 测试 。 虚 拟 机 创建 测试 会 快速 地 验证 虚拟 机 是 否 可 以 部 署 企 VSAN 数 据 仓储 上 ， 一 旦 验证 完成 
样品 虚拟 机 束 会 被 删除 。 虚 拟 机 部 署 时 会 采用 VSAN 数 据 存 储 的 默认 策略 。 多 播 性 能 测试 简单 地 验证 网 络 基 础 架构 能 否 使 用 多 播 
流量 来 处 理 特定 的 吞吐 量 ， 并 会 在 网 络 无 法 满足 VSAN 所 期 望 的 特定 流量 负载 时 进行 提示 。 这 对 于 跨 三 层 网 络 进 行 部 署 的 VSAN 
往往 要 经 过 多 跳 路 由 这 样 的 复杂 网 络 环境 来 说 尤为 重要 。 最 后 ， 存 储 性 能 测试 允许 管理 员 在 VSAN 和 群集 上 运行 多 种 存储 负载 ， 并 
检查 市 狗 、 吞 吐 量 和 延迟 。 这 对 于 概念 验证 测试 或 生产 环境 部 署 前 的 阶段 来 癌 都 是 非 单 好 的 测试 ， 管 理 员 可 以 对 VSAN 人 存储 进行 
老化 测试 (burn-in test) 来 友 现 系统 中 任何 不 稳定 的 组 件 、 驱 动 程序 或 固件 。 我 们 建议 在 任何 部 署 中 都 加 入 一 整 夜 的 存储 性 能 
老化 测试 。 


7.1.3 ”性 能 服务 


最 后 一 个 可 以 认为 属于 运行 状况 检查 的 特性 项 是 性 能 服务 (Performance service) ， 它 是 VSAN 6.2 引 入 的 新 特性 。 目 
VSAN 友 布 以 来 ， 一 个 一 直 被 认为 需要 改进 的 地 方 束 是 通过 vSphere Web 客 户 端 来 监控 VSAN 性 能 。 尽 管 通过 vsphere Web% 
户 端 也 能 获取 一 些 信息 (例如 基于 虚拟 机 的 性 能 指标 ) ， 但 是 几乎 没有 关于 VSAN 群 集 的 整体 性 能 、 基 于 主机 的 、 基 于 每 个 磁盘 
组 的 和 基于 每 个 设备 的 性 能 指标 。 这 些 信 息 都 只 能 通过 VSAN observer 工 具 来 获得 ， 而 且 并 没有 集成 进 vSphere 中 。VSAN 
observer 工 具 也 无 法 提供 任何 历史 记录 ， 只 能 运行 在 实时 模式 下 。 随 着 性 能 服务 的 友 布 ， 现 在 通过 vSphere Webs Pimpin LA 
快速 获取 诸如 IOPS、 延 迟 、 香 吐 量 以 及 其 他 大 量 的 性 能 指标 。 


性 能 服务 初始 状态 是 禁用 的 。 管 理 员 需 要 通过 Web 客 己 端 来 启用 之 。 关 于 性 能 服务 一 个 很 棒 的 特性 是 它 的 性 能 指标 不 会 给 
vCenter Server 增 加 任何 额外 的 负担 。 所 有 的 性 能 指标 都 保存 在 VSAN 数 据 存 储 的 一 个 特殊 的 虚拟 机 主页 对 象 (统计 数据 库 ) 
中 ， 它 是 在 性 能 服务 被 局 用 的 时 候 创建 出 来 的 。 现 在 ， 你 既 可 以 查看 实时 系统 状态 也 可 以 查看 历史 数据 。 显 示 在 用 户 界 面 

(UI) 中 的 指标 数值 是 性 能 的 5 分 钟 (滚动 ) 平均 值 。 由 于 统计 数据 是 保存 在 一 个 虚拟 机 主页 名 字 空 间 对 象 中 的 ， 它 有 可 能 用 满 
255GB 的 最 大 容量 。 图 7-3 显 示 的 是 性 能 服务 被 局 用 时 使 用 VSAN 上 默认 策略 的 统计 数据 库 对 象 的 状况 。 


Performance Service is Turned ON 


Status Enabled 
Stats object health © Healthy 
Stats object UUID 06af6a56-68e5-1050-f40c-ect4bbd59370 


Stats object storage policy ES Virtual SAN Default Storage Policy 


Compliance status w Compliant 





注意 ， 运 行 状况 检查 也 包括 一 些 测试 来 确保 性 能 服务 运行 正常 ， 这 些 测试 只 在 VSAN 6.2 中 可 见 。 


现在 我 们 已 经 介绍 了 运行 状况 检查 和 相关 服务 的 思 体 情况 ， 接 下 来 让 我 们 把 注意 力 转 向 那些 管理 员 在 省 理 VSAN 时 经 常会 面 
对 的 更 为 弟 用 的 任务 。 


71.2 ”主机 管理 


VMware VSAN 是 一 个 既 可 横向 扩展 又 可 纵向 扩展 的 存储 架构 ， 这 意味 着 可 以 无 颖 地 给 VSAN 群 集 添加 额外 的 存储 资源 。 这 
些 存储 资源 可 以 是 提供 额外 容量 的 磁盘 或 闪存 设备 、 包 含 容量 设备 和 缓存 设备 的 完整 磁盘 组 ， 也 可 以 是 带 有 存储 容量 的 主机 。 如 
果 你 有 过 一 些 vsSphere 环 境 管理 的 经 验 ， 就 不 会 对 VSAN 的 管理 是 如 此 简单 感到 惊讶 一 添加 存储 容量 真 的 就 像 给 群集 加 一 台新 
的 主机 一 样 简单 。 让 我 们 来 深入 研究 一 下 其 中 的 一 些 任务 。 





7.2.1 添加 主机 到 群集 


添加 主机 到 VSAN 和 群集 的 方法 相当 简单 直接 。 当 然 ， 你 必须 保证 主机 满足 VSAN 的 要 求 或 推荐 做 法 ， 例 如 专用 的 干 兆 网 卡 端 
口 〈 建 议 万 兆 ) ， 又 比如 车主 机 要 提供 额外 的 存储 空间 则 需要 人 至 少 一 个 缓存 层 设 备 和 一 个 或 多 个 容量 层 设备 。 此 外 ， 尽 管 一 些 配 


B (如 用 于 VSAN 通 信 的 VMKkernel 痛 口 ) 也 可 以 在 主机 加 入 群集 以 后 再 设置 ， 它 们 应 该 提前 配置 好 。 在 主机 成 功 加 入 群集 之 
后 ， 根 据 新 主机 中 额外 容量 层 设备 的 大 小 ， 需 要 观察 VS9AN 数 据 仔 储 到 底 增 加 了 多 少 空间 。 请 注意 ， 缓 仔 层 设备 不 会 增加 VSAN 
数据 存储 的 容量 。 为 了 完整 表述 ， 使 用 vSphere Web 客 户 端 将 主机 添加 到 VSAN 群 集 所 需 的 步骤 如 下 。 


1. 石 键 点 击 群集 对 象 并 选择 Add Host, 


2. 填 入 服务 器 的 IP 地 址 或 主机 名 ， 如 图 7-4 所 示 。 


1 Name and location Enter the name or IP address of the host to add to vCenter Server. 


Location: Qj) ie-vsan-cluster-01 


3 Host summary 
4 Resource pool 


5 Ready to complete 





图 7-4 添加 一 台 主 机 到 群集 
3. 填 入 用 户 账 号 ( 通 弟 是 root) 和 密码 。 
4. 接 受 SHA1 thumbprint (指纹 算法 ) 的 选项 。 
5. 在 Host Summary 窗 口 点 击 Next。 
6. 选 择 将 要 使 用 的 许可 证 。 
7. 如 果 需 要 可 以 启用 lockdown 模 式 并 点 击 Next。 
8. 在 Resource Pool 选 择 的 时 候 点 击 Next。 
9. 最 后 点 击 Finish ， 完 成 添加 主机 到 和 群集 的 操作 。 


如 果 你 的 群集 配置 成 目 动 模式 ， 这 融 完 成 了 ! 如 果 没 有 配置 成 目 动 模 式 ， 需 要 一 个 额外 的 步骤 来 手动 创建 磁盘 组 。 本 章 后 面 
会 教 你 "后 么 做 。 


7.2. ”从 群集 中 移 除 主机 


如 果 你 想 从 群集 中 移 除 一 台 主 机 ， 必 须 首 先 确保 主机 已 经 被 置 于 维护 模式 ， 这 将 在 下 一 书 中 详细 讨论 。 主 机 被 成 功 置 于 维护 
模式 之 后 ， 丈 可 以 安全 地 从 VSAN 和 群集 移 除 了 。 下 面 是 使 用 vSphere Web 客 尸 端 将 一 台 主 机 从 群集 中 移 除 的 步 又 。 


1. 右 键 点 击 主机 ， 然 后 选择 Enter Maintenance Mode， 并 从 图 7-5 所 示 的 屏幕 中 选择 合适 的 VSAN 数 据 迁 移 选 项 ， 然 后 点 


击 OK。 如 果 的 确 要 将 此 主机 从 群集 中 彻底 移 除 ， 那 么 建议 维护 模式 的 选项 选择 迁移 全 部 数据 。 


A host in maintenance mode does not perform any activities on virtual machines, 
including virtual machine provisioning. The host configuration is still enabled. The 
Enter Maintenance Mode task does not complete until the above state is completed. 
You might need to either power off or migrate the virtual machines from the host 
manuaily. You can cancel the Enter Maintenance Mode task at any time. 


心 There are hosts in a Virtual SAN cluster. Once the hosts are removed from the 
cluster, they will not have access to the Virtual SAN datastore and the state of 
any virtual machines on that datastore. 


i| Move powered-off and suspended virtual machines to other hosts in the cluster 


Virtual SAN data might reside on the hosts in a Virtual SAN cluster. Select an option 
to set the migration mechanism for the Virtual SAN data that will be enforced before 
the hosts enter maintenance mode. 


Virtual SAN data migration: 


Put the selected hosts in maintenance mode? 





图 7-5 ”进入 维护 模式 


2. 现 在 所 有 虚拟 机 将 会 被 迁移 (vMotion) 到 其 他 主机 。 如 果 群 集 局 用 了 DR9S， 那 么 这 将 目 动 肪 起。 如果 群集 没有 局 用 
DRS， 管 理 员 将 不 得 不 手动 将 虚拟 机 从 要 进入 维护 模式 的 主机 上 迁移 到 其 他 主机 ， 这 样 操作 才 会 成 功 。 


3. 当 迁移 完成 时 ， 根 据 所 选 VYSAN 数 据 迁移 选项 的 不 同 ，VSAN 组 件 可 能 也 会 被 复制 到 其 他 主机 。 
4. 当 主机 进入 维护 模式 后 ， 再 次 右键 点 击 主 机 并 选择 move to 选项 来 将 主机 移出 群集 。 


5. 如 果 你 想 将 主机 从 vCenter Server 彻 底 移 除 ， 再 次 右键 点 击 主 机 ， 并 选择 remove from inventory。 对 于 早期 版 本 的 
vCenter Server 来 说 ， 这 个 选项 位 于 All vCenter Actions 之 下 。 


6. 仔 细 阅 读 弹 出 的 文字 2 遍 ， 当 你 完全 明日 潜在 的 影响 之 后 再 点 击 Yes。 


7.2.3 ESXCLI VSAN 和 群集 命令 


VSAN 没 有 特定 的 主机 命令 ， 只 在 ESXCLI 中 有 一 个 名 字 空 间 。 使 用 命令 行 (CLI) 命令 ， 可 以 使 一 台 主 机 加 入 或 离开 一 个 群 


集 。 下 面 的 示例 7-1 中 显示 了 esxcli vsan cluster 命 令 行 的 部 分 基本 命令 : 


示例 7-1  esxcli vsan cluster 命 令 行 选 项 


~ d esxcli vsan cluster 


Usage: esxcli vsan cluster (cmd) [cmd options] 


Available Commands: 


get Get the information of the VSAN cluster that this host is joined to. 
join Join the host to a given VSAN cluster. 
leave Leave the VSAN cluster the host is currently joined to. 


restore Restore the persisted VSAN cluster configuration. 
~ d 


经 常 在 排 错 练 习 时 用 到 的 一 个 命令 是 get 命 令 。get 命 令 可 以 用 来 在 命令 行 获 取 群 集 的 配置 信息 ， 常 用 来 比较 主机 之 间 的 配 
置 ， 如 示例 7-2 所 示 : 


~ 


示例 7-2 通过 命令 行使 用 get 命 令 来 获取 群集 配置 信息 


~ # esxcli vsan cluster get 
Cluster Information 
Enabled: true 
Current Local Time: 2013-03-18T712:09:11Z 
Local Node UUID: 5115b62c3-96e6-434e-6839-1ccl1de253de4 
Local Node State: MASTER 
Local Node Health State: HEALTHY 
Sub-Cluster Master UUID: 511b62c3-96e6-434e-6839-1cc1de253de4 
Sub-Cluster Backup UUID: 511cc68b-352a-5cae-cf67-1cc1de252264 
Sub-Cluster UUID: 523845c8-73c9-5d99-0393-9ef20a328714 


Sub-Cluster Membership Entry Revision: 10 

Sub-Cluster Member UUIDs: 5110562c3-96e6-434e-6839-1cc1de253de4, 
511cc68b-352a-5cae-cf67-1cc1de252264, 
511c8526-5682-3688-8206-1cc1de253a92 

Sub-Cluster Membership UUID: 56092451-245f-9c0c-29f6-1cc1de253de4 


7.3 ”维护 模式 


前 面 在 讨论 从 VSAN 群 集中 移 除 主机 时 我 们 和信 要 地 提 到 了 维护 模式 ， 在 VSAN 的 环境 中 维护 模式 包谷 了 新 的 功能 ， 接 下 去 我 
们 会 详细 解释 。 以 前 ， 当 一 台 ESXi 主 机 被 置 于 维护 模式 时 ， 所 需 做 的 只 是 将 其 上 所 有 虚拟 机 迁 出 那 台 主机 ， 然 而 ， 在 VSAN 环 境 
下 ， 进 入 维护 模式 时 还 提供 了 数据 迁移 选项 。VSAN 维 护 模 式 的 选项 和 数据 清空 有 关 ， 具 体 介 绍 如 下 。 


确保 可 访问 性 (Ensure Accessibility) : 这 个 选项 会 在 进入 维护 状态 的 主机 上 迁 出 足够 多 的 数据 ， 以 确保 即使 这 人 台 主 机 
宕 机 后 所 有 的 虚拟 机 存储 对 象 仍 可 被 访问 到 。VSAN 并 不 迁 出 所 有 数据 ， 而 是 检查 那些 会 在 主机 被 置 于 维护 模式 时 丢失 仲裁 组 件 
或 数据 可 用 性 的 存储 对 象 ， 对 这 些 对 象 创建 足够 数量 的 拷贝 来 解决 这 个 问题 。 这 台 主 机 上 的 对 象 的 组 件 如 果 没 有 高 可 用 性 ， 就 会 
因为 主机 置 于 维护 模式 而 无 法 被 访问 到 ， 这 种 情况 下 ，VSAN (或 者 更 精确 地 说 是 CLOM) 就 必须 重新 配置 这 些 对 象 。 例 如 ， 当 


鹿 拟 机 配置 了 FIT 为 0， 或 群集 中 已 有 一 台 主 机 发 生 故 障 ， 又 或 是 有 另外 一 台 主 机 被 置 于 维护 模式 时 ， 这 种 情况 就 可 能 发 生 。 确 

保 可 访问 性 是 进入 维护 模式 向 导 程序 中 的 默认 选项 ， 也 是 当主 机 需要 短暂 地 置 于 维护 模式 时 VMware 的 推荐 选项 。 如 果 预 期 的 维 

护 时 间 很 长 ， 管 理 员 应 该 决定 是 否 需要 从 那 台 主 机 迁 出 所 有 的 数据 来 避免 对 虚拟 机 可 用 性 产生 风险 。 在 这 里 需要 提 一 下 的 

是 ，VSAN 的 最 初版 本 和 后 续 版 本 在 表现 上 有 一 个 细微 的 差别 : 最 初版 本 中 当 一 台 主 机 被 置 于 维护 模式 时 ， 它 会 继续 向 VSAN 数 

据 存 储 贡 献 自己 的 存储 且 此 时 (存储 ) 组 件 仍 可 被 访问 。 而 现在 当 一 台 主 机 被 置 于 维护 模式 之 后 ， 它 将 不 再 向 VSAN 数 据 存 储 提 
供 存 储 ， 其 上 所 有 组 件 都 会 被 标注 为 ABSENT (不 存在 ) 。 


. 迁移 全 部 数据 (Full Data Migration) : 这 个 选项 会 迁 出 所 有 数据 ， 本 质 上 就 是 为 置 于 维护 模式 的 那 台 主机 本 地 磁盘 存 
放 的 每 一 块 数据 都 创建 一 个 找 贝 。VSAN 并 不 需要 完全 从 那 台 进入 维护 模式 的 主机 复制 数据 ， 而 是 可 以 (并 也 会 利用 ) 从 所 有 拥 
有 对 象 副本 的 主机 复制 数据 ， 以 避免 在 进入 维护 模式 的 主机 上 制造 瓶颈 。 换 言 之 ， 在 一 个 8 台 主 机 的 群集 中 ， 当 一 台 主 机 用 迁移 
全 部 数据 的 方式 进入 维护 模式 时 ， 所 有 8 人 台 主机 都 可 能 参与 受 影响 组 件 的 重建 过 程 。 只 有 在 所 有 受 影 响 的 对 象 都 完成 重新 配置 、 
所 有 组 件 都 被 放置 到 群集 中 另外 的 主机 上 并 且 合 规 性 得 到 保证 的 情况 下 ， 主 机 才 会 成 功 进 入 维护 模式 。 这 是 当主 机 需要 彻底 从 群 


集中 移 除 或 者 会 进行 长 时 间 的 计划 维护 时 VMware 推荐 的 选项 。 


` 不 迁移 数据 (No Data Migration) : 这 个 选项 不 对 存储 对 象 进行 任何 操作 。 如 果 主 机 在 进入 维护 模式 之 后 关机 ， 情 况 等 
同 于 主机 前 溃 。 此 外 ， 理 解 这 一 点 也 很 重要 : 如 果 有 对 象 的 FIT 为 0， 选 择 此 选项 可 能 会 影响 对 象 的 可 用 性 。 这 个 选项 还 存在 其 
他 一 些 风险 ， 例 如 ， 如 果 和 群集 中 存在 一 些 “ 未 知 ”问题 或 故障 ， 或 是 正在 进行 的 维护 活动 是 管理 员 不 知道 的 ， 这 种 维护 模式 选项 
就 会 引起 虚拟 机 或 数据 无 法 被 访问 。 因 此 ， 只 有 在 进行 计划 中 的 关闭 整个 群集 的 操作 时 (或 在 VMware 支持 人 员 的 建议 
F) ，VMware 才 推荐 使 用 此 选项 。 


注意 ， 在 最 初 的 VSAN 版 本 中 ， 当 主机 进入 维护 模式 后 ，VSAN 仍 然 在 主机 上 进行 操作 、 访 问 和 提供 数据 服务 。 只 有 在 主机 
从 群集 中 移 除 或 者 关机 时 ，VSAN 才 会 停止 使 用 该 主机 (或 者 ， 当 然 ， 当 你 决定 把 全 部 数据 都 迁 出 ， 那 么 当 数 据 迁 移 完 
成 ，“ 旧 ”的 组 件 被 移 除 后 ，VSAN 也 不 再 使 用 该 主机 ) 。 这 从 VSAN 6.0 起 有 所 变化 。 在 VSAN 6.0 及 后 续 版 本 中 ， 当 一 台 主 机 
被 置 于 维护 模式 ， 它 将 不 再 向 VSAN 数 据 存 储 提供 存储 ， 所 有 位 于 那 台 被 置 于 维护 模式 的 主机 的 物理 存储 上 的 组 件 都 将 被 标注 为 
absent (不 存在 ) 。 


A host in maintenance mode does not perform any activities on virtual machines, 
including virtual machine provisioning. The host configuration is still enabled. The 
Enter Maintenance Mode task does not complete until the above state is completed. 
You might need to either power off or migrate the virtual machines from the host 
manually. You can cancel the Enter Maintenance Mode task at any time. 


Æ There are hosts in a Virtual SAN cluster. Once the hosts are removed from the 
cluster, they will not have access to the Virtual SAN datastore and the state of 
any virtual machines on that datastore. 


[Y Move powered-off and suspended virtual machines to other hosts in the cluster 
Virtual SAN data might reside on the hosts in a Virtual SAN cluster. Select an option 


to set the migration mechanism for the Virtual SAN data that will be enforced before 
the hosts enter maintenance mode. 


Virtual SAN data migration: 


Put the selected hosts in maintenance. 





图 7-6 ”维护 模式 的 选项 


对 于 非 VMware Update Manager 上 起 的 手工 进行 的 维护 模式 操作 来 襄 ， 参 见 图 7-6， 其 中 显示 了 当 一 台 或 多 台 主 机 置 于 维 
护 模式 时 管理 员 在 用 户 界面 中 可 以 选择 的 选项 ， 默 认 的 预先 选 定 的 数据 迁移 建议 是 Ensure Accessibility (确保 可 访问 性 ) 。 


7.3.1 默认 的 维护 模式 / 停 用 模式 


另 一 个 值得 注意 的 地 方 是 诸如 VMware Update Manager 之 类 的 产品 使 用 时 的 默认 的 维护 模式 。VSAN 6.1 之 前 是 无 法 控制 
维护 模式 ( 停 用 模式 ) 选项 的 ， 它 总 是 被 设 为 Ensure Accessibility (确保 可 访问 性 ) 。 但 这 不 忌 是 客户 想 要 的 选项 。 上 自从 VSAN 
6.1 发 布 后 ， 客 户 现 在 可 以 通过 高 级 选项 来 控制 默认 的 维护 模式 选项 了 。 这 个 高 级 选项 是 
VSAN.DefaultHostDecommissionMode， 它 使 得 管理 员 可 以 将 默认 的 维护 模式 设置 成 除了 Ensure Accessibility 之 外 的 其 他 
值 ， 如 表 7-1 所 示 。 


表 7-1 VSAN.DefaultHostDecommissionMode 的 选项 


维护 模式 选项 fü X 


ensureAccessibility 执行 VSAN 数据 重新 配置 来 保证 存储 对 象 的 可 访问 性 
evacuateAllData 执行 VSAN 数据 清空 动作 ， 所 有 存储 对 象 将 从 主机 移 除 
noAction 对 于 VSAN 数据 不 会 执行 什么 操作 


7.3.0. ”对 于 升级 与 补丁 而 言 推荐 的 维护 模式 选项 





先 拿 普通 仓储 环境 做 个 比较 : 在 升级 的 时 候 ， 通 常会 采用 深 动 升级 的 方法 一 一 也 束 是 说 如 果 有 2 个 控制 器 ， 当 其 中 一 个 在 升 
级 的 时 候 会 由 另外 一 个 来 处 理 MO。 即 使 是 这 样 ， 也 还 是 有 风险 的 。 区 别 在 于 ， 作 为 一 个 虚拟 化 管理 员 ， 你 拥有 更 多 弹性 ， 因 此 
会 布 尾 有 示 举 特性 可 以 达到 预期 效果 ， 例 如 vsphere High Availability (HA) 。 折 心目 间 ， 你 愿意 承受 何 种 程度 的 风险 ， 并 且 能 
够 承受 何 种 程度 的 风险 ? 


从 VSAN 的 角度 来 咒 ， 当 需要 把 一 台 主 机 置 于 维护 模式 时 ， 请 考虑 下 列 问 题 : 


为 什么 要 将 主机 置 于 维护 模式 ? 是 要 升级 主机 并 且 可 预见 的 不 可 用 时 间 很 短 ? 还 是 彻底 将 一 台 主 机 从 群集 中 移 除 ? 问题 的 
答案 对 于 要 选择 维护 模式 的 哪个 数据 迁移 选项 非常 重要 。 

. 现 有 多 少 台 主机 ?只 有 3 人 台 主 机 时 ， 你 只 能 选择 Ensure Accessibility (确保 可 访问 性 ) ， 这 是 因为 VSAN 总 是 需要 至 少 3 台 主 
机 来 进行 存储 (2 个 副本 和 1 个 见证 ) 。 因 此 对 于 3 节点 群集 ， 你 将 不 得 不 在 使 用 维护 模式 的 时 候 承 受 一 些 风险 ， 在 只 有 一 份 数 据 


拷贝 的 情况 下 运行 。 


迁移 需要 多 长 时 间 ? 


中 
m 
s 
$ 
Yè 


` 是 全 闪存 群集 还 是 混 


- 用 的 磁盘 是 什么 类 型 的 ? SAS 还 是 SATA? 


需要 把 数据 从 1 台 主 机 迁 往 另 一 台 以 保持 可 用 性 水 平 吗 ? 只 有 现存 的 组 件 需要 被 迁移 ， 而 不 是 主机 的 “原始 空间 ”， 也 就 


是 说 ， 如 果 8TB 空 间 只 使 用 了 6TB， 那 么 只 有 6TB 需 要 迁移 。 


是 否 只 需要 确保 数据 可 访问 性 ， 并 可 以 承受 维护 期 间 洪 在 的 宕 机 风险 ? 只 有 处 于 风险 中 的 组 件 才 会 被 移 走 。 例 如 ， 如 果 
6TB 空 间 中 只 有 500GB 处 于 风险 中 ， 那 么 就 只 有 那 500GB 才 会 迁 走 。 


天 于 维护 模式 的 数据 迁移 模式 还 有 一 些 需要 说 明 。 当 为 了 增加 可 用 性 水 平 而 选择 迁移 全 部 数据 时 ，“ 维 护 窗口 ”也 被 延长 
了 ， 因 为 可 能 需要 通过 网 络 在 主机 之 间 复 制 几 TB 的 数据 ， 这 可 能 需要 好 几 个 小 时 才能 完成 。 如 果 你 的 ESXI 升 级 连同 主机 重 局 需 
要 大 概 20 分 钟 ， 为 数据 迁移 而 等 待 几 个 小 时 是 否 可 以 接受 ? 或 者 你 还 是 愿意 承受 一 些 风 险 ， 通 知 用 户 因 为 维护 本 身 存 在 较 高 
险 可 能 会 宕 机 ， 但 是 可 以 只 要 几 分 钟 束 完成 而 不 是 几 个 小 时 。 当 然 ， 如 果 维 护 模 式 超过 了 1 个 小 时 ， 组 件 丈 可 能 开始 在 群集 中 的 
其 他 节点 上 重建 并 重新 同步 ， 这 将 消耗 一 定 的 资源 (60 分 钟 是 指 clomd 超 时 友 生 时 ，absent 的 组 件 会 自动 重建 ) 。 不 过 ， 主 要 
的 风险 在 于 维护 时 段 内 群集 可 能 会 有 友 生 另 一 次 故障 ， 那 么 虚拟 机 和 数据 融会 面临 风险 。 解 决 这 个 问题 的 方法 是 将 FTT 设 为 2， 这 
意味 着 你 对 一 台 主 机 进行 维护 的 时 候 ， 同 时 还 能 再 容忍 一 台 主 机 故障 。 新 的 纠 错 码 (erasure coding) 选项 实施 RAID-6 配 置 ， 
它 可 以 容忍 2 个 故障 ， 且 不 像 RAID-1 配 置 那 样 要 消耗 那么 多 的 空间 容量 。 


坦 日 地 说 ,我们 无 法 告诉 你 对 你 的 组 织 来 说 哪 种 万 法 是 最 好 的 。 不 过 我 们 的 确 客 得 对 于 只 需 较 短 时 | 间 的 大 多 数 普通 的 软件 和 
硬件 维护 任务 ， 用 确保 可 访问 性 维护 模式 数据 迁移 选项 是 可 以 接受 的 。 不 过 ， 你 仍然 应 该 和 你 的 存储 团队 讨论 所 有 的 方法 并 了 解 
它们 的 工作 流程 ， 和 业务 伙伴 讨论 大 家 都 同意 的 SLA 是 怎样 的 ?从 运营 的 角度 来 看 哪 种 才 是 最 合适 的 ? 


7.4 磁盘 管理 


如 前 所 述 ，V3SAN 的 设计 目标 乙 一 是 能 够 横向 扩展 仓储 容量 ， 这 要 求 有 能 力 添加 新 磁盘 、 把 磁盘 蔡 换 为 容量 更 大 的 磁盘 或 简 
单 地 更 换 故 障 磁盘 。 本 节 将 讨论 在 VSAN 环 境 下 完成 这 些 任 务 的 步骤 。 


7.4.1 “添加 一 个 磁盘 组 
第 2 章 中 介绍 过 如 何 添加 一 个 磁盘 组 ， 不 过 为 了 完整 起 见 ， 这 里 再 列 一 下 具体 的 步骤 。 这 个 例子 显示 的 是 如 何 同时 给 所 有 主 
机 创建 一 个 磁盘 组 。 不 过 管理 员 也 可 以 一 台 主 机 一 台 主 机 地 添加 磁盘 组 。 
1. 在 左 侧 窗 格 中 点 击 VSAN 和 群集 。 


2. 企 石 侧 选择 Manage。 


4. 如 图 7-7 所 示 ， 可 选 设备 以 每 个 设备 型 号 /大 小 或 每 台 主 机 的 方式 显示 出 来 。 这 里 显示 的 是 Disk model/size (磁盘 型 号 /大 
小 ) 视图 。 
5. Ei: Claim For 字 段 ， 然 后 选择 “Capacity tier" (容量 层 ) 来 选中 所 有 容量 设备 ， 然 后 选择 “Cache tier” (缓存 层 ) 


来 选中 所 有 缓存 设备 ， 然 后 点 击 OK。 


现在 一 个 磁盘 组 丈 创 建 好 了 ， 这 只 需要 几 秒 钟 的 时 间 ]。 


74.2. 移 除 一 个 磁盘 组 


在 开始 这 个 任务 之 前 ， 你 可 能 想 要 首先 清空 当前 存在 于 那个 磁盘 组 中 的 所 有 组 件 。 在 VSAN 的 最 初 友 布 版 本 中 ， 这 只 能 通过 
把 那个 要 移 除 的 磁盘 组 所 在 的 主机 置 入 维护 模式 来 实现 。 在 VSAN 6.0 中 加 入 了 一 种 新 的 方法 ， 可 以 让 管理 员 无 需 将 主机 置 入 维 
护 模 式 束 可 以 清空 磁盘 组 。 


从 一 个 磁盘 组 清空 虚拟 机 组 件 并 不 是 删除 一 个 磁盘 组 所 必需 的 步 又， 但 是 我 们 相信 大 多 数 管 理 员 希望 在 删除 磁盘 组 之 前 先 将 
其 中 的 虚拟 机 组 件 移 到 群集 中 的 其 他 磁盘 组 上 去 。 如 果 你 不 执行 这 步 操 作 来 清空 数据 ， 可 能 会 导致 组 件 任 VSAN 重 新 配置 的 过 程 
中 处 于 不 再 高 可 用 和 被 降级 的 状态 。 如 前 面 多 次 强调 过 的 ， 如 果 在 组 件 被 降级 时 再 友 生 一 个 故障 ， 那 么 可 能 会 导致 数据 丢失 。 


Select which disks should be claimed for cache and which for capacity in the VSAN duster. The disks below are grouped by model and size or by host The 
recommended selection has been made based on the available devices in your environment 


The number of capacity disks must be greater than or equal to the number of cache disks claimed per host. 
ag umi x Group by. [Diskmodelsge — | J(Q Fiter -) 
Disk Model/Senal Number Claim For Drive Type Total Capacity Disk Distribution/Host 


Transport Type 
A. — tier flash 7.28 TB Mixed distribution 


» El ATA Micron M500DC MT, 745.21 GB disks Block Adapter 


» [B SEAGATE ST91000640SS ,93151GBdisks - & Do not daim 


HDD 93151GB  1diskon 1 host 





" 

Total cache: 127 TB  Totalcapacity: 7.28 TB 
Configuration validation: 

vV Configuration correct with the following suggestions: 


E Configuration not recommended. Some hosts are claiming less disks than others. 





A On some hosts new disk groups will be created, on others - only capacity disks will be added to the existing disk groups 








图 7-7 VSAN 磁 盘 管 理 


如 果 你 计划 对 磁盘 组 进行 迁移 全 部 数据 的 操作 ， 则 应 该 先 验证 群集 中 是 否 仓 企 足够 的 磁盘 空间 。 


完成 这 个 步骤 后 ， 如 图 7-8 所 示 ， 现 在 残 可 以 移 除 磁 盘 组 了 。 不 过 ， 根 据 VSAN 配 置 方式 的 不 同 ， 移 除 磁盘 组 的 图 标 可 能 
会 显示 在 磁盘 组 视图 中 。 


Disk Groups 


Ba'zc 
| Disk Group 


- B 1027.51.1 


pm si A. 


ele -——am A TA A A ata AEDA 
Jisk group (0100000000313230344430363839494f445249. 
——— HQ Jo oN Tw ——w———o——-—— vw. Vw 

~ Ñ 1027512 


Disk group (01000000003132313044303931334941445249... 
~ Ñ 10.27.51.3 














Disk group (01000000003132343144303531344941445249... 
~ Ñ 1027514 


Disk group (01000000003132313044303932354941445249... 














图 7-8  VSANAZE & ZR 


在 最 初 配置 VSAN 的 时 候 ， 需 要 决定 向 VSAN 数 据 存 储 添 加 磁盘 的 方式 ， 这 可 以 是 全 自动 的 ( "Automatic" 模式) ， 或 是 
手动 的 方式 ( "Manual" fgxX) 。 


默认 情况 下 ，VSAN 会 被 配置 为 自动 模式 ， 这 意味 着 如 果 移 除 一 个 磁盘 组 ，VSAN 会 立刻 重 


新 声明 这 泽 磁盘 ， 因 此 达 不 到 移 除 磁盘 组 的 目的 。 当 想 要 移 除 磁盘 组 的 时 候 ， 必 须 先 把 VSAN 和 群集 改 到 手动 模式 ， 这 样 移 除 磁盘 


组 的 图 标 才 会 出 现 。 这 可 以 很 轻松 地 在 VSAN 群 集 的 设置 界面 中 完成 ， 如 图 7-9 所 示 。 


把 VSAN 置 于 手动 模式 后 ， 回 到 磁盘 管理 视图 ， 点 击 选择 那 台 处 于 维护 模式 的 主机 下 面 的 灰 盘 组 ， 束 可 以 看 见 移 除 磁盘 组 的 


图 标 了 (有 一 个 红色 的 X) 。 现 在 可 以 进行 移 除 磁盘 组 的 操作 了 。 如 果 磁 盘 组 已 经 被 清空 ， 你 应 该 能 看 见 如 图 7-10 所 示 的 弹出 窗 
口 ， 其 中 显示 了 没有 数据 需要 清空 。 在 VSAN 6.0 中 ， 如 果 磁 盘 组 中 还 存 有 数据 ， 管 理 员 在 此 时 还 有 机 会 清空 磁盘 组 中 的 组 件 而 
不 需要 像 前 面 所 提 及 的 那样 将 主机 置 入 维护 模式 。 


号 le-vsan-cluster-01 - Edit Virtual SAN Settings 


Turn ON Virtual SAN 
Add disks to storage 


Automatic > included hosts will be automatically 





EJ7-9 ”在 VSAN 最 初版 本 中 将 模式 从 自动 改 成 手动 




















Data on the disks from the disk group 
"01000000002020202020202020202020203030303030303030 
3134313/304331424139343144d6963726f6e" will be deleted. 


Unless the data on the disks is evacuated first, removing the 
disks might disrupt working VMs. 


Evacuate data (0.00 B) © 


Remove disk group? 
Yes No | 


图 7-10 AVSAN T T1 85 A 28. 





74.3 ” 问 磁 盘 组 ; 东 加 磁盘 


如 果 VSAN 梧 置 成 自动 模式 ， 束 不 仓 在 这 个 问题 。VSAN 群 集会 自动 声明 新 的 或 现存 的 磁盘 并 向 VSAN 数 据 存 储 提供 容量 。 


然而 ， 如 果 群 集 配 置 成 手动 模式 ， 就 需要 手动 去 向 磁盘 组 添加 新 磁盘 用 以 给 VSAN 数 据 存 储 增加 容量 。 用 vSphere Web% 
户 端 可 以 轻松 地 完成 这 个 操作 。 先 导航 到 VSAN 和 群集 ， 选 择 Manage (E) 页 ， 然 后 选择 VSAN Disk Management (HRE 
EH) ， 接 下 去 新 的 磁盘 就 可 以 被 声明 用 于 磁盘 组 了 。 如 果 你 的 磁盘 没有 显示 出 来 ， 请 再 对 磁盘 控制 器 做 一 次 重新 扫描 。 这 里 的 分 
组 显示 出 来 的 磁盘 会 按照 Disk model/size (磁盘 型 号 /大 小 ) 列 出 ， 也 可 以 选择 按照 Host (主机 ) 排列 。 在 这 个 例子 中 ， 分 组 
已 经 被 更 改 为 按照 主机 排列 。 这 个 群集 中 的 大 多 数 主机 已 经 声明 过 其 上 的 所 有 磁盘 了 ， 不 过 主机 esxi-hp-12 仍 然 还 有 一 个 
HDD (硬盘 ) 可 供 选 择 。 现 在 选择 主机 并 选中 这 块 磁盘 ， 在 Claim For 列 ， 管 理 员 可 以 选择 这 块 磁盘 是 用 于 缓存 层 还 是 容量 层 。 
如 果 磁 盘 要 被 加 入 到 一 个 现存 的 磁盘 组 中 ， 又 或 者 这 不 是 一 块 内 存 设备 ， 那 么 它 将 只 能 被 添加 进 容量 层 ， 如 图 7-11 所 示 。 请 选 
中 想 要 加 入 到 VSAN 群 集 的 这 块 磁盘 并 点 击 OK.。 


7.4.4 ”从 磁盘 组 中 移 除 磁盘 


和 前 面 讨论 的 移 除 磁盘 组 类 似 ， 只 有 在 群集 处 于 手动 模式 的 时 候 ， 才 可 以 通过 vSphere Web 客 户 端 来 将 磁盘 从 磁盘 组 中 移 
除 。 如 果 群 集 处 于 自动 模式 ，VSAN 群 集会 直接 重新 声明 刚刚 被 移 除 的 磁盘 。 在 群集 置 于 手动 模式 的 情况 下 ， 导 航 VSAN 和 群集 的 
Disk Management (磁盘 管理 ) 部 分 ， 选 择 一 个 磁盘 组 ， 此 时 移 除 磁盘 的 图 标 ( 带 有 红色 X 的 一 块 磁盘 ) 就 会 在 用 户 界面 
(UI) 中 显示 出 来 ， 如 图 7-12 所 示 。 请 注意 ， 当 群集 处 于 自动 模式 的 时 候 ， 这 个 图 标 是 不 可 见 的 。 


(* Cluster - Claim Disks for Virtual SAN Use 





Select which disks should be claimed for cache and which for capacity in the VSAN cluster. The disks below are grouped by model and size or by host. The recommended selection has been 
made based on the available devices in your environment. 
The number of capacity disks must be greater than or equal to the number of cache disks claimed per host. 


a um & |a m" | e£ — E Group by. Q Filter X 


Name Claim For Drive Type Total Capacity Transport Type Adapter 

esxi-hp-05 rainpole.com (All disks claimed or ineligible) & Do not claim 

esxi-hp-06.rainpole.com (All disks claimed or ineligible) & Do not claim 

esxi-hp-07 .rainpole.com (All disks claimed or ineligible) & Do not claim 

esxi-hp-08 rainpole.com (All disks claimed or ineligible) & Do not claim 

esxi-hp-09.rainpole.com (All disks claimed or ineligible) ® Do not daim 

esxi-hp-10 rainpole.com (All disks claimed or ineligible) & Do not claim 

esxi-hp-11.rainpole.com (All disks claimed or ineligible) & Do not claim 
= esxi-hp-12 rainpole.com (Contributing storage to the Virtual SAN cluster) Custom 

HP Serial Attached SCSI Disk (naa.600508b1001cbfc1c8b3fb3cb400349a) 总 Capacity tier HDD 93148 GB  BlockAda.  vmhba1 

ini 9items [7 


Total cache: 000B  Totalcapacity: 931.48 GB 


Configuration validation: 





v^ Configuration correct. 


[Lo Jem ] 





图 7-11 ”声明 磁盘 


Fa Clust 


Getting Started Summary Monitor | Manage | Related Objects 


Js | Scheduled Tasks Tags | Permissions 


«4 Disk Groups 


belii alam EC 
visere Das Disk Group Disks in Use State Virtual SAN... Type au n Network Parti... Disk Format Version 
vSphere HA ES Disk group (02000100006005085b1001cc5956fa4ceab9c0f384.. 3 Mounted Healthy Hybrid 
v Virtual SAN Y B esxi-hp-08.rainpole.com 3 of 3 Maintenance M... Healthy Group 1 
General 国 Disk group (0200010000600508b1001cbb71840b954637d.. 3 Mounted Healthy Hybrid 
v 目 esxi-hp-09 rainpole.com 3 of 3 Connected Healthy Group 1 
Fault Domains & Stretched EH Disk group (010000000020202020202020202020202030.. 3 Mounted Healthy Hybrid 
Cluster X B esxi-hp-10.rainpole.com 3 of 3 Connected Healthy Group 1 
Heaith and Performance 国 Disk group (010000000020202020202020202020202030.. 3 Mounted Healthy Hybrid 
wv Configuration X 目 esxi-hp-11.rainpole.com 3 of 3 Connected Healthy Group 1 
EM Disk group (010000000020202020202020202020202030.. 3 Mounted Healthy Hybrid 
B B esxi-hp-12 rainpole.com 2 0f 3 Connected Healthy Group 1 
EH Disk group (010000000020202020202020202020202030.. 2 Mounted Healthy Hybrid 


il 
Disk group (010000000020202020202020202020202030303030303030303134313730433142414135434469637 26166): Disks 
@ © | ig^ Acsons ~ 
Name Drive Type Disk Tier Capacity Virtual SAN Health Status State Transport Type Adapter 
Local ATA Disk (t10.ATA Micron P420m2DMTFDGAR1T4M... | Flash Cache 1.27 TB Healthy Mounted Parallel S... . vmhba2 


gA HP Serial Attached SCSI Disk (naa.600508b1001cf83e15b33111b.. HDD Capacity 931.48 GB Healthy Mounted Block Ada...  vmhba1 
C3 HP Serial Attached SCSI Disk (naa.600508b1001c673b8b8f23a8.. HDD Capacity 93148 GB Healthy Mounted Biock Ada... vmhbai 





图 7-12 ”从 磁盘 组 移 除 磁盘 


与 企 选 择 删除 磁盘 组 时 管理 员 收 到 的 需要 清空 磁盘 组 的 提示 类 似 ， 当 从 一 个 磁盘 组 中 移 除 一 个 磁盘 的 时 候 ， 管 理 员 也 会 收 到 
类 似 的 提示 ， 要 清空 该 磁盘 中 的 内 容 。 这 会 把 该 磁盘 中 的 所 有 组 件 迁 移 到 磁盘 组 中 的 其 他 磁盘 上 ， 前 提 是 磁盘 组 中 有 足够 的 空 
间 。 在 图 7-13 所 示 的 例子 中 ， 磁 盘 已 经 是 空 的 了 ， 所 以 没有 需要 迁移 的 内 容 。 不 过 如 果 磁 盘 上 还 他 有 组 件 的 话 ， 管 理 员 此 时 还 
有 机 会 在 删除 磁盘 前 将 它们 迁移 走 。 


Disk "Local ATA Disk (naa.500a07510f865d6a0)' is aboutto be 
removed from the disk group 
"01000000002020202020202020202020203030303030303030 
3134313/3043314239413/334d69863/2616e". 


Unless the data on the disk(s) is evacuated first, removing the 
disk(s) might disrupt working VMS. 


[V] Evacuate data (0.00 B) €9 


Remove disk? 





天 于 从 磁盘 组 中 删除 磁盘 还 有 一 个 重要 的 注意 事项 。 如 果 群 集 局 用 了 去 重 和 压缩 ， 融 无 法 从 磁盘 组 中 移 除 一 个 磁盘 。 原 因 在 
于 去 重 和 压缩 过 的 数据 ， 连 同 其 关联 的 哈 希 表 ， 以 及 去 重 和 压缩 所 关联 的 元 数据 都 是 打 散 分 布 在 磁盘 组 容量 层 的 所 有 磁盘 上 的 ， 
因此 无 法 单独 移 除 一 个 磁盘 。 要 在 局 用 了 去 重 和 压缩 的 群集 中 的 磁盘 组 里 面 删除 一 个 磁盘 ， 必 须 清空 整个 磁盘 组 才 有 可 能 删除 一 
个 磁盘 ， 之 后 还 需要 通过 运行 状况 用 户 界 面 来 重建 这 个 磁盘 组 并 使 群集 重新 平衡 。 


7.5 ” 抹 除 磁盘 


有 时 候 ， 磁 盘 或 内 存 设备 在 VSAN 局 用 前 曾 被 其 他 功能 或 者 操作 系统 使 用 过 ， 在 这 种 情况 下 ，VSAN 是 无 法 重新 使 用 它们 
的 ， 因 为 它们 仍然 拥有 分 区 甚至 是 文件 系统 。 注 意 ， 这 是 刻意 为 之 的 ， 目 的 是 为 了 防止 用 户 选 错 磁 盘 而 丢失 数据 。 如 果 你 想 使 用 
一 块 曾经 用 过 的 磁盘 ， 你 需要 手工 抹 除 磁盘 的 所 有 数据 。 


在 用 于 VSAN 之 前 ， 有 3 种 常用 的 方法 可 以 用 来 抹 除 磁盘 。 
- 如 果 之 前 是 用 于 VSAN 的 ， 那 么 通过 vSphere Web 客 户 端 从 磁盘 组 移 除 一 个 磁 盘 会 移 除 分 区 表 。 
- 如 果 使 用 vSphere 6.0 U1 (和 VSAN 6.1) ， 磁 盘 可 以 直接 在 vSphere Web 客 户 端 中 擦 除 。 
: 使 用 partedUtil 磁 盘 分 区 管理 工具 ， 它 包含 在 ESXi 系 统 中 。 
: 用 gpatted 可 引导 ISO 镜像 重庆 主机。 


用 gparted 的 方法 很 简单 ， 你 可 以 从 http://gparted.org/ 下 载 gparted 的 ISO 镜像 文件 ， 并 用 它 来 引导 ESXi 主 机 。 而 使 用 的 
方法 很 简单 ， 就 是 在 指定 的 磁盘 上 删除 所 有 分 区 并 点 击 Apply。 


Qs 抹 除 磁盘 的 任务 具有 破坏 性 ， 在 抹 除 磁盘 后 想 要 恢复 数据 几乎 是 不 可 能 的 。 
使 用 ESXi 内 置 的 partedUtil 方 法 稍微 有 点 复杂 ， 因 为 这 是 一 个 命令 行 工具 。 下 面 是 使 用 partedUtil 工 具 来 抹 除 一 块 磁盘 的 必 
要 步骤 。 如 果 你 不 确定 要 抹 除 哪个 设备 ， 请 务必 用 esxcli storage core device list 命 令 再 重复 检查 一 次 设备 1D。 


第 一 步 : 显示 分 区 表 


~ d$ partedUtil get  /dev/disks/naa.500xxxxxx 
15566 255 63 250069680 
1 2048 6143 0 0 
2 6144 250069646 0 0 


~ d$ partedUtil getptbl /dev/disks/naa.500xxxxxx 

gpt 

15566 255 63 250069680 

1 2048 6143 381CFCCC728811E092EE000C2911D0B2 vsan 0 

2 6144 250069646 AA31E02AA400F11DB9590000C2911D1B8 vmfs 0 
~ d 


第 三 步 : 删除 分 区 


~ d$ partedUtil delete /dev/disks/naa.500xxxxxx 1 
~ # partedUtil delete /dev/disks/naa.500xxxxxx 2 


如 果 你 想 要 知道 更 多 天 于 partedUtil 的 使 用 方法 ， 请 阅读 下 列 VMware 知 识 库 文 
E: http://kb.vmware.com/kb/1036609, 


7.5.1 ”内 亮 磁 盘 LED 
在 vSphere 6.0 中 ， 你 可 以 内 亮 (点 亮 并 使 之 内 炼 ) 前 并 磁盘 驱动 器 的 LED。 这 个 功能 对 于 VSAN 非 常 重要 ， 因 为 它 可 以 从 
一 个 群集 的 几 十 个 甚至 数 百 个 磁盘 驱动 器 中 明确 指出 需要 蔡 换 的 那个 驱动 器 。 


在 用 户 界面 中 选中 一 个 磁盘 驱动 器 ， 就 可 以 看 见 点 亮 或 关闭 LED 的 图 标 ， 参 见 图 7-14 所 圈 出 部 分 。 点 击 绿色 的 图 标 可 以 将 其 
扎 党 ， 扎 击 灰 色 的 图 标 可 将 点 亮 的 LED 关 闭 。 


Disk Groups 
amu (Q Filter 
Disk Group State Virtual SAN 
v [à cs-ie-h01.ie.local Connected Healthy 
图 Disk group (0200080000600508b1001c61cedd42b0c3fbl5... Healthy 
~ 目 cs-ie-h02;ie.local Connected Healthy 
gd Disk group (0200080000600508b1001c64b76c8ceb56968.. Healthy 
v [à cs-ie-h03.ie.local Connected Healthy 


1 T > 


M 8items [9 * 


hd 


Disk group (0200080000600508b1001c61cedd42b0c3fb1551324c4147494341): Disks 


2 az show (muse J») 
Name Capacity Virtual SAN Health Status 1 | 
C HP Serial Attached SCSI Disk (naa.600508b1001c6 1cedd42b0c... 186.28 G8 Healthy 
GA HP Serial Attached SCSI Disk (naa.600508b1001c16be66256785... 136.70 GB Healthy 
gA HP Serial Attached SCSI Disk (n3a.600508b1001c6481627 1482... 13670 GB Healthy 
gA HP Serial Attached SCSI Disk (naa.600508b1001C388c9268176... 136.70 GB Healthy 
a3 HP Senal Attached SCSI Disk (naa.60050851001cc45450667e4... 136.70 GB Healthy 





图 7-14 在 vSphere Web% P 35 P N J5 A ALED 


75.2 ESXCLI VSAN 磁 盘 命 令 


用 ESXCLI 可 以 完成 很 多 磁盘 相关 的 操作 。 首 先 ， 你 可 以 获取 群集 模式 的 信息 或 是 给 群集 设置 手工 或 自动 模式 。 其 他 ESXCLI 
命令 则 可 用 于 VSAN 存 储 相关 的 磁盘 和 磁盘 组 ， 你 可 以 添加 、 移 除 或 列 出 一 个 磁盘 组 中 的 磁盘 。 这 将 同时 列 出 SSD 和 HDD。 示 例 
7-3 中 esxcli vsan storage list 命 令 的 输出 重点 显示 出 : 2 个 设备 是 否 是 闪存 设备 ， 以 及 它们 属于 哪个 磁盘 组 。 


示例 7-3 esxcli vsan storage list 命 令 的 输出 结果 


~ 4$ esxcli vsan storage list 

naa.5000c5002bd7526f 
Device: naa.5000c5002bd7526f 
Display Name: naa.5000c50025bd7526f 
Is SSD: false 
VSAN UUID: 52db9f60-57b8-ad88-70eb-889f3c72b5e1 
VSAN Disk Group UUID: 521f9dda-efda-4718-e75d-aec63eb6fbd4 
VSAN Disk Group Name: naa.500253825000c296 
Host UUID: 519f364d-ef04-8d94-8ad4-1cc1de252264 
Cluster UUID: 520bff2a-badc-0cdd-7be7-70e5e5ae032f 
Used by this host: true 
In CMMDS: true 
Checksum: 11848694795517181960 
Checksum OK: true 

naa.500253825000c296 
Device: naa.500253825000c296 
Display Name: naa.500253825000c296 
Is SSD: true 
VSAN UUID: 
VSAN Disk Group UUID: 521f9dda-efda-4718-e75d-aec63eb6fbd4 
VSAN Disk Group Name: naa.500253825000c296 
Host UUID: 00000000-0000-0000-0000-000000000000 
Cluster UUID: 00000000-0000-0000-0000-000000000000 
Used by this host: true 
In CMMDS: true 
Checksum: 12800345249350977942 


Checksum OK: true 


如 前 所 述 ， 通 过 命令 行 也 可 以 从 磁盘 组 中 移 除 磁盘 或 内 存 设备 ， 不 过 这 应 该 尤其 小 心 ， 最 好 是 通过 前 面 几 页 提 到 过 的 用 户 图 
形 界面 (UI) 来 完成 。 


7.6 故障 场景 


我 们 已 经 在 第 5 草 中 探讨 过 一 些 故 障 场 景 ， 并 解释 了 “不 存在 ” (absent) 组 件 和 “已 降级 ” (degraded) 组 件 的 不 同 之 
处 。 不 过 ， 再 从 运营 的 角度 来 理解 一 下 倍 盘 、SSD 或 主机 故障 会 造成 息 样 的 影响 也 不 错 。 在 开始 讨论 之 前 ， 让 我 们 首先 来 回顾 一 
下 2 种 不 同 的 故障 状态 ， 因 为 这 是 从 运营 角度 考量 的 基础 。 


- Absent. (PẸ) : VSAN 并 不 知道 消失 的 组 件 发 生 了 什么 。 典 型 的 例子 是 主机 故障 。VSAN 无 法 判断 这 是 真正 的 故障 还 
是 仅仅 只 是 一 次 重启 。 此 时 VSAN 会 默认 等 待 60 分 钟 ， 之 后 再 创建 新 的 副本 组 件 。 


Degraded (已 降级 ) : VSAN 知 道 消失 的 组 件 发 生 了 什么 。 一 个 典型 的 例子 是 发 生 在 一 块 SSD 或 一 块 磁盘 已 经 彻底 坏 掉 
的 时 候 。 此 时 VSAN 立 刻 就 会 创建 新 的 组 件 ， 来 使 得 受 影响 的 对 象 尽快 合 规 于 其 所 选 的 策略 。 


现在 你 知道 了 不 同 的 状态 有 哪些 ， 让 我 们 再 看 一 看 不 同类 型 的 故障 (至 少 是 “最 ” 单 见 的 那些 ) ， 以 及 它们 的 影响 。 


7.6.1 容量 设备 故障 


磁盘 故障 可 能 是 任何 仓储 环境 中 最 单 见 的 故障 了 ，V3SAN 也 不 例外 。 原 因 很 简单 : 磁盘 有 活动 部 件 。 当 然 问题 在 于 VSAN 如 
何 处 理 磁 盘 故 障 ” 如 果 故 障 友 生 时 正好 企 磁盘 上 有 一 个 读 或 写 的 操作 会 友 生 什么 ? 


如 果 人 存储 组 件 返 回 一 个 读 匀 误 ， 不 管 是 混合 配置 中 的 磁盘 还 是 全 闪 人 和 配 置 中 的 内 和 全 设 备 ，VSAN 会 去 检查 是 侣 仔 企 副本 组 
件 ， 如 果 有 则 从 那个 副本 读 取 。 黑 认 情 况 下 每 个 对 象 家 创建 时 都 配置 成 FTT 为 1， 这 意味 背 每 个 对 象 总 有 2 个 完全 一 样 的 副本 组 件 
可 用 。 故 障 友 生 在 读 取 时 有 2 种 不 同 的 情况 ， 第 一 种 情况 是 问题 可 以 修复 ， 另 一 种 情况 是 问题 无 法 修复 。 当 问题 是 可 以 修复 的 时 
候 ，I/O 错 误会 被 汇报 给 对 象 的 属 主 ， 对 象 的 属 主 则 会 友 起 组 件 重 构 。 当 组 件 重 构 完成 时 ， 故 障 组 件 会 被 删除 。 然 而 ， 如 果 因 为 
某 种 原因 ， 没 有 副本 组 件 存 在 (这 种 情况 的 可 能 性 很 小 ， 因 为 这 需要 管理 员 手 工 创造 一 个 特别 的 策略 才 行 ) ，VSAN 束 会 报告 这 
个 虚拟 机 出 现 了 I/O 错 误 。 


写 故 障 也 会 传送 到 对 象 属 主 ， 组 件 会 被 标注 为 “已 降级 ”并 会 在 VSAN 群 集中 另外 的 磁盘 上 触 友 组 件 重 构 。 当 组 件 重 构 完成 
时 ， 和 群集 目录 (CMMDS) 会 被 更 新 。 注 意 ， 闪 存 设备 ( 它 没有 出 错 ) 会 继续 用 缓存 来 提供 读 取 服 务 。 


最 初版 本 的 VSAN 中 ， 在 某 一 个 (或 多 个 ) 组 件 因为 故障 而 处 于 重建 的 过 程 中 ，vSphere Web 客 户 新 中 没有 显示 有 多 少数 
据 需 要 同步 。 不 过 Ruby vSphere Console (RVC) 工具 中 有 一 条 非常 有 用 的 命令 vsan.resync dashboard 可 以 让 你 来 进行 验 
证 ， 如 图 7-15 所 示 。 


/localhost/CH-Datacenter/computers/cluster» vsan.resync dashboard 

2013-12-12 16:56:58 +0000: Querying all VMs on VSAN ... 

2013-12-12 16:56:58 +0000: Querying all objects in the system from 10.20.177.1B ... 

2013-12-12 16:56:59 +0000: Got all the info, computing table ... 
4-----------------2-2----------------2------------2------------------------ -R----------------- 4--------------- 一 
| VM/Object Syncing objects | Bytes to sync | 





| Total 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 - 


/localhost/CH-Dartacenter/computers/cluster- 





图 7-15 ”用 vsan.resync_dashboard 来 进行 验证 


不 过 目 VSAN 6.0 起 ，vSphere Web 客 尸 新 提供 了 在 故障 发生 时 监控 数据 同步 状况 的 功能 。 在 vCenter Server 清 单 中 选择 
VSAN 群 集 对 象 ， 然 后 选择 Monitor，Virtual SAN， 表 选择 正在 同步 中 的 组 件 ， 残 可 以 找到 该 信息 。 它 会 汇报 正在 重新 同步 的 
组 件数 量 、 重 新 同步 的 剩余 字 书 数 以 及 完成 重新 同步 所 需要 的 时 间 。 


7.6.2 ” 缓 仔 设备 故障 


如 果 缓 存 设备 不 可 访问 会 友 生 什 么 情况 ? 当 缓 存 设备 不 可 访问 时 ， 同 一 个 磁盘 组 中 那个 缓存 设备 支持 的 所 有 容量 设备 都 会 无 
法 被 访问 。 缓 存 设备 故障 等 同 于 绥 存 设备 背后 的 所 有 容量 设备 故障 。 从 本 质 上 来 说 ， 当 一 个 缓存 设备 故障 时 ， 整 个 磁盘 组 被 认为 
是 “已 降级 的 ”。 如 果 VSAN 和 群集 中 有 多 余 的 容量 ， 它 束 会 试图 在 男 一 台 主 机 或 磁盘 上 重新 配置 存储 对 象 。 


因此 ， 从 运营 和 架构 决策 的 角度 来 看 ， 根 据 使 用 到 的 主机 类 型 的 不 同 ， 创 建 多 个 小 的 磁盘 组 可 能 要 比 单个 大 磁盘 组 好 ， 因 为 
一 个 磁盘 组 可 以 被 视 为 一 个 故障 域 ， 如 图 7-16 所 示 。 
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图 7-16 VSANÆ X ZR 


7.6.3 ”主机 故障 


假设 VSAN 虚 拟 机 存储 策略 已 经 创建 并 设置 了 允许 的 故障 数 为 1，VSAN 群 集中 的 一 台 主 机 故障 和 连接 到 常规 存储 设备 的 普 
通 群 集中 的 主机 故障 类 似 。 当 然 ， 主 要 的 不 同 点 在 于 当 故 障 VSAN 主 机 恢复 正常 时 ， 它 会 含有 不 同步 的 对 象 组件 。 幸 运 的 
是 ，VSAN 市 有 一 种 机 制 ， 一 旦 主机 恢复 融会 立刻 同步 所 有 组 件 。 


出 现 主机 故障 情况 60 分 钟 后 ，VSAN 会 启动 组 件 重 建 ， 因 为 此 时 主机 能 在 合理 的 时 间 内 恢复 的 可 能 性 已 经 很 小 了 。 当 存储 对 
象 重 构 完成 时 ， 群 集 目 录 (CMMDS) 会 被 更 新 。 事 实 上 ， 过 程 中 每 一 步 (从 故障 发 现 ， 到 重新 同步 发 起 ， 再 到 重新 同步 进行 ， 
直到 最 终 重 建 完成 ) 都 会 被 更 新 。 


如 果 原 先 故 障 的 主机 恢复 并 重新 加 入 了 群集 ，VSAN 会 检查 对 象 重 构 状 态 。 如 果 对 象 已 经 在 其 他 一 个 或 多 个 节点 上 完成 了 重 
构 ， 束 不 会 有 其 他 动作 。 如 果 对 象 重 构 仍 在 进行 中 ， 原 先 故 障 主机 的 组 件 仍 将 被 重新 同步 ， 以 防 新 的 组 件 会 出 现 问 题 。 当 所 有 对 
象 同步 完成 ， 原 先 主 机 的 组 件 会 被 丢弃 ， 而 新 创建 的 副本 会 被 局 用 。 不 过 ， 如 果 新 组 件 因 为 某 种 原因 无 法 完成 同步 ， 那 么 原先 主 
机 上 原来 的 组 件 会 被 继续 使 用 。 


你 现在 可 能 会 对 VSAN 组 件 的 重新 同步 的 工作 原理 产生 一 些 疑 惑 。 当 对 象 的 组 件 由 于 主机 、 网 络 或 磁盘 故障 而 无 法 同步 的 事 
件 发 生 时 ，VSAN 会 维护 一 个 被 变更 的 数据 块 的 点 位 图 (bitmap) 。 在 故障 上 友 生 之 后 ， 这 个 点 位 图 使 得 由 2 个 或 更 多 组 件 构成 的 
对 象 得 以 恢复 。 让 我 们 用 一 个 例子 来 进行 解释 。 假 设 现在 有 一 人 台 主 机 上 含有 对 象 X 的 副本 A， 当 这 人 台 主 机 出 现 问 题 与 群集 的 其 余 
部 分 相隔 离 时 ，X 的 人 存活 部 分 仍 有 仲裁 组 件 和 数据 组 件 可 被 访问 ， 所 以 能 继续 工作 并 对 读 写 操作 提供 服务 。 当 A "TEE 
(absent) ”时 ， 所 有 对 X 进 行 的 写 操作 会 被 VSAN 持 续 不 断 地 记录 进 一 个 点 位 图 ， 也 就是 说 点 位 图 跟踪 记载 下 了 仍然 无 法 同步 
的 区 域 。 如 果 包 含有 副本 A 的 被 隔离 主机 恢复 了 ， 且 VSAN 决 定 将 其 和 对 象 X 的 其 他 组 件 重新 整合 到 一 起 ， 点 位 图 束 会 被 用 来 同 
步 组 件 A。 


当主 机 发 生 了 故障 ， 其 上 运行 的 所 有 虚拟 机 会 被 vSphere HA 重启 。vSphere HA 可 能 会 在 群集 中 任何 可 用 的 主机 上 重启 虚 
拟 机 ， 而 不 管 这 些 主机 是 否 拥有 VSAN 组 件 ， 如 图 7-17 所 示 。 


esx1-01 esx1-02 esx1-03 
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图 7-17 VSAN 主 机 1 发 生 了 故障 ，HA 触 发 重启 操作 


当 友 生 主 机 隔离 的 事件 时 ，VvSphere HA 能 够 也 会 重 局 受 影 响 的 虚拟 机 。 因 为 这 种 情况 略 略 有 点 复杂 ， 让 我 们 再 进一步 讨论 
ep 


7.6.4 网 络 分 区 


网 络 分 区 (Network Partition) 上 可 能 发 生 在 网 络 发 生 故障 时 。 换 而 言 之 ， 某 些 主机 在 群集 的 这 一 边 ， 而 剩 下 的 主机 则 位 
于 群集 的 另 一 边 。 当 出 现 网 络 分 区 事件 时 ，VSAN 会 显示 相关 网 络 错误 配置 问题 的 警示 信息 。 


在 前 面 的 章节 中 解释 过 主机 和 磁盘 故障 的 场景 ， 现 在 是 时 候 描述 一 人 VSAN 群 集 是 如 何 处 理 隅 离 和 分 区 的 了 。 让 我 们 首先 来 
看 一 个 典型 的 场景 并 基于 这 个 例子 来 解释 一 下 在 网 络 友 生 分 区 时 到 底 友 生 了 些 什么 。 


在 图 7-18 描 述 的 场景 中 ，VSAN 中 有 一 台 虚 拟 机 运行 在 ESXi-01 上 。 这 台 虚 拟 机 是 通过 一 个 设置 了 FTT 为 1 的 虚拟 机 存储 策略 
来 置 备 的 。 


esx1-02 esx1-03 





VSAN 网 络 





图 7-18  VSANI/O3u: 允许 的 故障 数 为 1 





因为 VSAN 具 有 这 样 的 能 虚拟 机 运行 的 主机 可 以 不 拥有 这 人 台 虚 拟 机 的 活动 存储 组 件 ， 于 是 问题 就 出 现 了 : 当 网 络 被 隔 
离 的 时 候 会 友 生 什么 情况 ”如 你 所 能 想象 的 一 样 ， 这 里 VSAN 网 络 起 着 重要 的 作用 ， 当 你 意识 到 它 还 被 HA 用 作 网 络 的 心跳 ， 你 
会 发 现 它 的 作用 原来 是 如 此 巨大 。 注 意 ，vSphere HA 网 络 是 被 VSAN 自 动 重 新 配置 的 ， 用 来 保证 正确 的 网 络 可 以 处 理 这 些 场 
景 。 下 面 的 这 些 步骤 描述 了 当 情 况 发 生 时 vSphere HA 和 VSAN 是 如 何 响应 一 个 隔离 事件 的 : 


1.HA 将 会 探测 到 无 法 从 esxi-01 接 收 到 心跳 。 
2.HA 主 控 主 机 会 试图 ping 从 属 主 机 esxi-01。 
3.HA 会 宣告 从 属 主机 esxi-01 不 可 用 。 


4.VM 虚 拟 机 会 在 某 一 台 其 他 主机 上 被 重启 (在 这 个 例子 中 是 esxi-03， 如 图 7-19 所 示 ) 。 


和 被 隔离 ! 
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图 7-19 有 一 台 主 机 被 隔离 的 VSAN 分 区 : HA 重启 虚拟 机 


还 有 个 问题 : 如 果 网 络 的 故障 很 糟糕 ，esxi-01 和 esxi-02 位 于 网 络 分 区 的 同一 出， 这 会 发生 什么 后 果 ” 嗯 ， 这 残 是 见证 上 友 挥 
作用 的 时 候 了 。 先 来 看 看 图 7-20， 这 能 帮助 大 家 理解 。 


这 里 的 情况 复杂 程度 略 有 增加 。 现 在 有 2 个 分 区 ， 一 边 跑 痢 虚拟 机 并 且 也 有 虚拟 机 的 虚拟 磁盘 (VMDK) ， 另 一 个 分 区 则 有 
一 个 VMDK 副 本 和 一 个 见证 。 猜 猿 看 会 发 生 什么 ? 对 了 ，VSAN 会 用 见证 来 判断 哪 一 边 的 分 区 具有 简单 多 数 的 组 件 ， 并 且 基 于 结 
果 来 决定 哪 一 边 的 分 区 获胜 。 在 这 个 例子 中 ， 分 区 2 具有 超过 50% 的 对 象 组 件 ， 因 此 是 胜 者 。 这 意味 着 虚拟 机 将 会 在 esxi-03 或 
esxi-04 上 被 vSphere HA 重启。 注意 ， 只 有 在 你 配置 了 相应 的 主机 隅 离 啊 应 时 ， 分 区 1 的 虚拟 机 才 会 衫 天 机 。 


Qus ”我 们 起 强调 的 是 ， 这 个 配置 是 我 们 强烈 推荐 的 ! (隔离 响应 一 关机 。) 
但 是 如 果 esxi-01 和 esxi-04 都 被 隔离 了 ， 会 友 生 什么 情况 ? 图 7-21 显 示 了 这 种 场景 。 


还 记得 在 前 面 讨论 过 的 规则 吗 ? 


pm 


于 某 个 分 区 中 可 用 组 件 的 百分比 或 可 用 投票 数 的 百分比 来 宣告 胜 者 。 


EHA > 50% 的 组 件 


vSphere HA 在 分 区 2 上 重 局 庶 拟 机 ， 它 拥有 > 50% HURTS 





多 台 主 机 被 隔离 : HA 重启 虚拟 机 


VSAN 分 区 ， 


图 7-20 
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虚拟 机 ， 它 们 拥有 > 50% 的 组 件 ! 


| vSphere HA 在 ESXi-02/ESXi-03 E) 


图 7-21 VSAN 中 有 2 台 主 机 被 隔离 : HA 重启 虚拟 机 


如 果 肝 个 分 区 能 够 访问 超过 ?50% 的 〈 肝 个 对 象 的 ) 组 件 或 投票 ， 融 获胜 。 对 于 每 个 对 象 来 讽 ， 最 多 只 能 有 一 个 获胜 分 区 。 这 
意味 着 当 esxi-04 和 0esxi-01 都 被 隔离 时 ， 只 有 esxi-02 或 esxi-03 可 以 重 局 此 虚拟 机 ， 因 为 此 对 象 有 66% 的 组 件 存 在 于 群集 的 这 个 


要 防止 这 泽 情况 友 生 ， 必 须 保 证 VSAN 网 络 是 高 可 用 的 ， 例 如 通过 网 卡 绑 定 和 元 余 的 网 络 交换 机 ， 这 些 曾 在 第 3 章 中 讨论 


如 果 因 为 基 些 原因 vCenter 不 可 用 了 ， 如 果 要 获取 VSAN 网 络 的 信息 ， 你 可 以 通过 ESXi 的 命令 行 来 实现 。 通 过 CLI 管 理 员 可 以 
检查 或 移 除 VSAN 网 络 配置 。 下 面 的 示例 7-4 中 ， 你 可 以 发 现 用 于 群集 通信 的 VMKkernel 网 络 接口 及 其 使 用 的 IP 协 议 : 


示例 7-4 ”使 用 中 的 VMkernel 网 络 接口 和 IP 协 议 


~ # esxcli vsan network list 
Interface 

VmkNic Name: vmk2 

IP Protocol: IPv4 


Interface UUID: 06419f51-ec79-05b57-5b3e-1cci1de252264 
Agent Group Multicast Address: 224.2.3.4 

Agent Group Multicast Port: 23451 

Master Group Multicast Address: 224.1.2.3 

Master Group Multicast Port: 12345 

Multicast TTL: 5 


[1] 也 叫 网 络 隔离 。 





译 者 注 


7.6.5 RAEI: 


另 一 个 可 能 会 发 生 的 情况 是 磁盘 全 满 。 你 或 许 会 问 : “ 当 VSAN 数 据 存 储 空间 全 满 会 发 生 什么 情况 ? ”要 回答 这 个 问题 ， 首 
先 应 该 友 问 : “ 当 单 块 硬盘 填 满 时 会 友 生 什么 ? ”因为 这 会 友 生 在 VSAN 数 据 存 储 被 填 满 之 前 。 


在 解释 一 块 磁盘 全 满 时 VSAN 会 如 何 响应 之 前 ， 值 得 先 提 一 下 的 是 VSAN 会 试图 防止 这 种 情况 友 生 。 如 果 可 以 阻止 磁盘 全 满 
的 情况 ，VSAN 会 试图 在 整个 群集 的 区 围 内 平衡 容量 ， 或 者 来 回 移动 组 件 ， 长 至 是 拆 分 组 件 。 当 然 ， 这 些 动作 是 人 否 能 成 功 完全 取 
决 于 虚拟 机 声明 和 填充 新 的 数据 块 的 速率 ， 以 及 VSAN 可 以 在 哪里 重新 放置 现存 组 件 。 简 单 地 说 ,就 是 遵循 物理 法 则 。 


当 友 生 磁 盘 容 量 全 满 的 时 候 ，VSAN 会 暂停 (从 技术 角度 来 如 称 为 “Stun”) 试图 写 数 据 并 为 写 请 求 申 请 新 的 磁盘 空间 的 那 
些 虚 拟 机 。 那 些 不 需要 额外 磁盘 空间 的 虚拟 机 可 以 继续 正常 运行 。 注 意 ， 基 于 VSAN 的 虚拟 机 默认 就 是 精简 置 备 的 ， 这 仪 仪 在 新 
数据 块 分 配给 这 个 精简 置 备 的 磁盘 时 才 和 生效。 如果 这 种 情况 友 生 了 ， 在 虚拟 机 概要 页 会 显示 如 图 7-22 这 样 的 报错 信息 。 

这 和 数据 人 存储 到 达 容 量 上 限时 可 以 观察 到 的 VM FS 的 表现 一 模 一 样 。 当 额外 的 磁盘 容量 添加 到 VSAN 数 据 人 存储 之 后 ， “停滞 
的 ”虚拟 机 可 能 可 以 通过 vsphere Web 客 户 端 来 恢复 运行 。 通 过 Monitor (管理 ) > Virtual SAN > Physical Disks. (物理 磁 


盘 ) 视图 (如 图 7-23 所 示 ) ， 管 理 员 应 该 能 看 见 每 块 磁盘 都 各 有 多 少 容量 已 经 佑 消耗 把 了 。 


p windows2008x64-1 Actions ~ = 


Getting Started | Summary | Monitor Manage Related Objects 








windows2008x64-1 CPU USAGE 
Guest OS: Microsoft Windows Server 2008 R2 (64-bit) " 0.00 Hz 
Compatibility ESXi 5.5 and later (VM version 10) MEMORY USAGE 
VMware Tools: Not running, version:9344 (Upgrade available) 0.00 B 
DNS Name: ^y STORAGE USAGE 
b Powered On taana — 
Host 10.27.51.3 
Launch Console Ev 


€» There is no more space for virtual disk windows2008x64-1 1.vmdk. You might be able to contnue this session by freeing disk space on the relevant volume, and clickin.. Answer Question. 
A VMware Tools is out of date on this virtual machine. Install VMware Tools 
© vSphere HA virtual machine monitoring error Acknowledge ResetTo Green 
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« Physical Disks 
-EC (arte — >) 
nun Name Disk Group Drive Type Capacity Used Capacity Reserved Ca... 
- A 10.27.51.2 
g5 Local FUSIONIO Disk (eui.c68e151fed8a4fcf00247 12c7cc... 到 Disk group (0100000000313... | SSD 1.1 TB 10 GB 10 GB 
HP Serial Attached SCSI Disk (naa.600508b1001cdb46f50... EM Disk group (0100000000313... | Non-SSD 273.4 GB 217.51 GB 216.56 GB 
HP Serial Attached SCSI Disk (naa.600508b1001ca5b887... za Disk group (0100000000313... | Non-SSD 273.4 GB 218.5 GB 215.3 GB 
HP Serial Attached SCSI Disk (naa.600508b1001cf1fb3ea... | 国 Disk group (0100000000313... | Non-SSD 273.4 GB 21846 GB 213.85 GB 
HP Serial Attached SCSI Disk (naa.600508b1001c366252... zi Disk group (0100000000313... | Non-SSD 273.4 GB 218.19 GB 217.4 GB 
~ Ñ 1027.51.3 
Local FUSIONIO Disk (eui.d1ef5a5bbeB64e27002471febd... za Disk group (0100000000313... | SSD 1.1 TB 10 GB 10 GB 
HP Serial Attached SCSI Disk (naa.600508b01001c784579.. (M) Disk group (0100000000313... | Non-SSD 273.4 GB 200.00 GB 198.81 GB 
HP Serial Attached SCSI Disk (naa.600508b1001c67c2dcf... EH Disk group (0100000000313... | Non-SSD 273.4 GB 229.17 GB 228.09 GB 
HP Serial Attached SCSI Disk (naa.600508b1001c034feb6... zu Disk group (0100000000313... | Non-SSD 273.4 GB 230.94 GB 228.01 GB 
HP Serial Attached SCSI Disk (naa.600508b1001c36274da... | Disk group (0100000000313... | Non-SSD 273.4 GB 215.9 GB 214.81 GB 
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7.7 ”精简 置 备 的 考量 


M qud SERA 








默认 情况 下 ， 所 有 部 署 到 VSAN 数 据 存储 的 虚拟 机 都 是 精简 置 备 的 。 这 样 做 最 大 的 好 处 束 是 虚拟 机 不 会 占用 任何 未 使 用 的 空 
间 容 量 。 在 数据 中 心中 的 虚拟 机 有 40%~60% 的 未 用 空间 的 情况 并 不 少见 。 可 以 想象 ， 如 果 虚 拟 机 是 厚 置 备 的， 不 仅 会 平添 不 少 
成 本 ， 而 且 从 组 件 放置 的 角度 来 看 还 会 使 VSAN 的 弹性 减 小 。 


当然 ， 从 运 襄 的 角度 来 看 精简 置 备 ， 如 果 你 严重 地 过 量 分 配 空间 而 且 很 多 虚拟 机 都 声明 新 的 磁盘 空间 ， 总 是 可 能 会 填 满 
VSAN 数 据 存 储 空间 的 。 这 和 采用 NFS 或 使 用 虚拟 机 精简 配置 的 VMFS 的 环境 没什么 区 别 。 至 运 的 是 ， 通 过 Web 客 户 端 用 户 界 


面 ， 有 很 多 地 方 可 以 检查 容量 ， 图 7-24 显 示 的 是 例子 之 一 一 一 Summary (概要 ) 页 。 


Getting Started | Summary | Monitor Manage Related Objects 


vsanDatastore 
Type: vsan 
URL: dsJvmfsvolumesvsan:524ed5e9ee77b654-b7895b53dcad7c5ey 


FREE: 603.85 GB 


CAPACITY: 3.47 TB 
Refresh 


三 





图 7-24 VSAN 数 据 存 储 的 容量 
VSAN 6.2 中 还 引入 了 一 组 新 的 容量 视图 ， 使 得 监控 虚拟 机 对 象 的 空间 消耗 变 得 非常 容易 。 


当 到 达 一 定 的 阅 值 时 ，vCenter Server 会 发 出 警报 来 确保 管理 员 已 经 知晓 了 潜在 的 可 能 发 生 的 问题 。 默 认 情 况 下 ， 会 在 超过 
75% 的 阅 值 时 触 友 一 个 黄色 三 角形 的 感叹 号 的 警报 (严重 性 : $E) ， 当 到 达 859% 时 会 上 友 出 另外 一 个 警报 (严重 性 : 严重 ) ， 如 
图 7-25 所 示 。 (注意 ， 这 个 问题 也 会 在 运行 状况 检查 部 分 友 出 一 个 警报 。) 


~ Alarms 


Al (12) | New (6) — Ackno.. 


心 isos 2 
Datastore usage on disk 


A corkisos 
Datastore usage on disk 


A isoshare 


A vsanDatastore Datastore usage on disk Datastore usage on disk 


9 10.27.51.6 


Severity: Warning Host usage 


Status: Acknowledged by root A 
vsanDatastore 
Acknowledged on: March 18, 2014 at 1:26:17 PM GMT+1 Datastore usage on disk 


Triggered on: March 13, 2014 at 12:33:50 AM GMT+1 
A 10.27.51.6 


Defined in: le-vcva-01 Host vendor provider registra... 


Description: Default alarm to monitor datastore disk usage A 1027515 


W Reset to green | v Host vendor provider registra... 





图 7-25 ”数据 存储 使 用 警示 


7.8 vCenterg 


vCenter Server 是 大 多 数 vSphere 部 署 项 目 中 的 重要 组 成 部 分 ， 因 为 它 是 用 来 管理 和 监控 虚拟 基础 架构 的 主要 工具 。 过 
去 ，vSphere 中 的 新 功能 往往 依赖 于 vCenter Server 的 存在 ,例如 vSphere Distributed Resource Scheduler (DRS) 。 如 果 
vCenter Server 不 可 用 ， 这 些 服务 也 会 暂时 不 可 用 。 束 vSphere DRS 的 例子 来 说 ， 这 意味 着 vCenter Server 不 可 用 时 ， 负 载 均衡 
功能 束 暂 时 无 法 实现 了 。 


平 运 的 是 ，VSAN 完 全 不 依赖 于 vCenter Server， 甚 至 在 变更 配置 或 创建 一 个 新 的 VSAN 群 集 时 也 不 需要 。 即 便 vCenter 
Server 宕 机 ，VSAN 仍 会 继续 运作 ， 因 此 只 要 虚拟 机 用 了 VSAN 功 能 ， 就 都 不 会 受到 影响 。 如 果 有 需要 ， 所 有 的 管理 任务 都 可 以 
通过 ESXCLI (就 此 事 还 可 用 RVC) 来 完成 。 还 有 疑惑 ? 是 的 ， 这 种 方法 是 完全 受 VMware 支 持 的 。 


现在 你 可 能 会 问 为 什么 VMware 决定 将 VSAN 和 群集 和 和 vSphere HA 与 DRS 放 在 一 起 管理 ， 尤 其 是 在 VSAN 和 vCenter Server 之 
间 没 什么 直接 依存 关系 的 情况 下 。 有 几 个 原因 ， 让 我 们 在 探讨 vCenter Server 故 障 场景 之 前 先 来 简单 解释 一 下 。 


把 VSAN 群 集 和 vSphere HA 与 DRS 群 集 放 在 一 起 的 主要 原因 是 用 尸体 验 。 现 在 ， 在 配置 /局 用 VSAN 的 时 候 ， 只 需要 在 
vSphere Web 客 尸 病 界面 中 ， 在 群集 属性 中 点 击 一 次 女 标 即 可 完成 。 这 样 轻松 的 用 尸体 验 主要 是 靠 已 经 成 型 的 计算 群集 (由 一 
组 逻辑 的 ESXi 主 机 构成 ) 实现 的 。 


这 不 仅 可 以 使 部 署 更 为 轻松 ， 也 简化 了 升级 流程 和 其 他 维护 任务 ， 这 些 任务 通常 是 在 群集 的 范围 内 完成 的 。 在 此 之 上 ,计算 
资源 的 容量 规划 和 规模 决 案 都 是 在 群集 的 粒度 上 完成 的 ， 通 过 群集 结构 的 统一 ， 可 以 方便 进行 仓储 规模 的 规划 。 


最 后 但 同样 重要 的 是 : 可 用 性 。vSphere HA 是 在 群集 的 层面 上 实现 的 。 在 写作 本 书 时 ，vSphere HA 还 不 允许 跨 群 集 进 行 
虚拟 机 的 故障 切换 ， 因 此 它 本 质 上 只 在 群集 的 沁 围 内 考虑 每 台 虚 拟 机 的 可 访问 性 。 也 就 是 说， 当 把 vSphere HA、DRS 和 VSAN 
放 在 一 起 考虑 时 ， 让 它们 共享 同一 个 逻辑 边界 和 分 组 可 以 使 管理 更 加 方便 ， 生 活 更 加 轻松 。 


7.8.1 vCenter Server 故 障 场景 


失去 vCenter Server 会 上 友 生 什么 ? 会 对 VSAN 有 何 影 响 ? 如 何 重 建 环境 ? 即使 VSAN 不 依赖 vCenter Server， 其 他 组 件 却 需 
要 。 如 果 ， 只 是 如 果 ，vCenter Server 发 生 故 障 ， 新 的 vCenter Server 实 例 需要 从 头 开始 创建 ， 会 对 VSAN 环 境 有 何 影 响 ? 


在 重建 一 台新 的 vCenter Server 后 ， 需 要 重新 定义 一 个 启用 VSAN 的 群集 并 将 主机 加 回 到 这 个 群集 。 直 到 完成 最 后 一 步 配 置 
之 前 ， 你 将 会 一 直 收 到 一 个 “配置 错误 ”的 警报 ， 因 为 VSAN 和 群集 和 vSphere 群 集 在 vCenter 的 清单 (inventory) 中 不 匹配 。 


另 一 个 需要 考虑 的 因素 是 ， 失 去 VCenter Server 意 味 着 失去 管理 员 曾 经 创建 过 的 虚拟 机 存储 策略 。 基 于 和 存储 策略 的 省 理 
(SPBM) 将 不 会 知道 之 前 的 虚拟 机 存储 策略 ， 也 不 知道 虚拟 机 曾经 绑 定 过 哪些 策略 。 不 过 VSAN 仍 然 清楚 明日 地 知道 管理 员 的 
要 求 并 继续 实施 着 这 些 策 略 。 现 在 ， 通 过 Ul 是 无 法 导出 现 有 策略 的 ， 但 是 现在 已 经 有 一 个 用 于 虚拟 机 存储 策略 的 应 用 程序 编程 
O (API) 可 以 做 到 这 一 点 。 


关于 虚拟 机 存储 策略 API 的 重要 一 点 是 ， 它 是 作为 一 个 vCenter Server 中 的 独立 的 API 妆 点 友 布 的 ， 因 此 不 能 通过 普通 
vSphere API 访 问 到 。 要 使 用 这 个 API， 必 须 连 接 到 SPBM 服 务 器 ， 这 需要 一 个 认证 的 vCenter Server 会 话 来 实现 。 这 个 API 可 以 
用 来 导出 和 导入 策略 。 你 可 以 在 下 面 的 William Lam 的 文章 中 找到 如 何 获取 现 有 虚拟 机 存储 策略 的 一 个 例 
F: http://www.virtuallyghetto.com/2013/11/restoring-vsan-vm-storage-policy.html。 通 过 利用 这 个 例子 和 公开 的 SPBM 
APIl， 葡 可 以 开发 出 导入 和 导出 虚拟 机 存储 策略 的 脚本 。 


7.8.2 在 VSAN 上 运行 vCenter Server 


一 个 弟 见 的 文 持 问 题 是 ，VMware 是 否 文 持 任 VSAN 和 群集 上 安 半 用 于 管理 VSAN 的 vCenter Server? 问题 来 源 于 当 VSAN 数 
据 存储 出 现 故障 无 法 访问 时 ， 其 上 的 虚拟 机 包括 vCenter Server 也 会 无 法 运行 。 于 是 在 失去 了 vCenter Server 之 后 (因此 诸如 
RVC 等 工具 也 无 法 使 用 ) ， 融 无 法 对 VSAN 环 境 进 行 排 错 。 和 幸运 的 是 ，VSAN 完 全 可 以 通过 ESXi 主 机 上 的 ESXCLHI 命 令 行 来 进行 管 
理 。 因 此 ， 开 始 时 那个 问题 的 答案 是 : 是 的 ，VMware 支 持 用 户 将 vCenter Server 安 装 在 VSAN 上 (而 且 这 也 是 受 支 持 的 ) , (B 
是 显然 ， 在 少数 的 vCenter Server 不 在 线 的 情况 下 需要 对 VSAN 进 行 管理 或 进行 问题 排 错 ， 用 户 体验 就 不 会 那么 好 了 。 这 是 一 个 
需要 仔细 考虑 并 谨慎 做 出 的 决定 。 


7.8.3 wvCenter Servers 





如 果 可 以 在 ESXi 上 运行 vCenter Server， 如 何 从 头 创建 并 开始 部 署 呢 ? 在 典型 的 绿地 项 目 上 中， 没有 其 他 外 部 存储 ，VSAN 
必须 在 部 署 vVCenter Server 之 前 就 已 经 投入 使 用 。 


virtuallyghetto.com 的 William Lam 摘 述 了 一 个 可 以 实现 上 述 目标 的 操作 流程 。 要 获得 完整 的 流程 和 关于 VSAN 及 目 动 化 的 


更 多 文章 ， 请 参见 William Lam 的 网 站 (virtuallyghetto.com) ， 他 友好 地 授权 我 们 在 本 书 中 使 用 他 提供 的 内 容 。 为 了 方便 读 


f 


机 ， 


我 们 将 这 个 在 单 服务 器 VSAN 数 据 仔 储 上 部 署 并 引导 一 台 vCenter Server 的 过 程 简 起 地 进行 了 总 结 ， 步 又 如 下 。 


1. 在 物理 主机 上 安装 ESXi。 从 技术 角度 来 说 ， 一 台 主 机 就 可 以 开始 这 个 部 署 过 程 了 ， 但 是 你 可 能 希望 再 准备 好 2 台 额 外 的 主 
除非 你 不 在 乎 vCenter Server 在 遇 到 硬件 故障 的 时 候 能 人 否 被 恢复 。 


2. 你 必须 在 计划 置 备 vCenter Server 的 ESXi 主 机 上 修改 默认 VSAN 人 存储 策略 ， 运 行 以 下 2 条 ESXCLI 命 令 行 来 启用 “强制 置 


esxcli vsan policy setdefault -c vdisk -p 


"((NV"hostFailuresToTolerateWM" il) (NM"forceProvisioningN" i1))" 


esxcli vsan policy setdefault -c vmnamespace -p 


"((N"hostFailuresToTolerateN" i1) (NM"forceProvisioningN" i1))" 


3. 用 下 列 ESXCLI 命 令 来 确认 VSAN 默 认 策 略 已 经 修改 正确 了 : 


~ 4$ esxcli vsan policy getdefault 


Policy Class Policy Value 


cluster (("hostFailuresToTolerate" i1)) 

vdisk (("hostFailuresToTolerate" i1) ("forceProvisioning" i1)) 
vimnamespace (("hostFailuresToTolerate" i1) ("forceProvisioning" i1)) 
vmswap (("hostFailuresToTolerate" il) ("forceProvisioning" i1)) 


4. 你 必须 识别 出 第 一 合 ESXi 主机 上 的 用 于 VSAN 数 据 存储 的 磁盘 。 用 下 列 ESXCLI 命 令 来 获取 信息 : 


esxcli storage core device list 
5 .要 获取 某 个 特定 设备 的 具体 信息 来 分 辨 这 到 底 是 一 块 SSD 还 是 常规 的 磁盘 ， 可 以 在 命令 行 中 用 -d 参 数 并 加 上 设备 名 : 
esxcli storage core device list -d «disk identifier» 


6. 识 别 出 要 使 用 的 磁盘 后 ， 写 下 磁盘 名 ， 这 将 在 下 面 的 步骤 中 用 到 。 在 这 个 例子 中 ， 我 们 只 有 一 块 S9D 和 一 块 磁盘 。 


7 .在 可 以 创建 VSAN 数 据 存储 之 前 ， 我 们 首先 需要 创建 一 个 VSAN 群 集 。 要 创建 一 个 VSAN 群 集 ， 用 以 下 ESXCLI 命 令 ， 注 意 


自 VSAN 6.0 起 ， 已 经 不 再 需要 生成 UUID 并 用 -u 选 项 来 在 命令 行 中 标注 它 了 ， 取 而 代 之 ， 可 以 使 用 选项 new 


esxcli vsan cluster new 


8. 群 集 创建 完成 后 ， 可 以 运行 下 列 ESXCLI 命 令 来 获取 VSAN 群 集 的 信息 : 


esxcli vsan cluster get 


9. 接 下 来 我 们 要 把 ESXi 主 机 的 磁盘 添加 进来 以 创建 这 个 单 节 点 的 VSAN 数 据 存 储 。 要 这 么 做 ,我 们 需要 运行 下 列 ESXCLI 命 
令 ， 并 输入 在 前 面 的 步骤 获取 的 SSD 和 HDD 的 磁盘 设备 名 称 : 


esxcli vsan storage add -d <HDD-DISK-ID> -s«SSD-DISK-ID» 
-d 选 项 指明 的 是 常规 磁盘 ， 而 -s 选 项 指明 SSD 盘 。 如 果 有 多 块 磁盘 ， 你 就 需要 输入 多 次 -d 选 项 。 需 要 指出 的 是 ，VSAN 


6.0/6.1 中 ， 不 先 添加 VSAN 许 可 证 是 无 法 创建 全 闪存 VSAN 数 据 存储 的 ， 但 是 VSAN 6.2 中 应 该 是 可 以 的 。 现 在 你 已 经 在 VSAN 数 
据 存 储 中 添加 好 了 磁盘 ， 下 列 ESXCLI 命 令 可 以 用 来 查看 已 经 用 于 VSAN 数 据 存 储 的 磁盘 清单 : 


esxcli vsan storage list 


10. 为 了 减少 一 个 额外 的 步 又， 还 可 以 在 第 一 全 ESXi 主 机 上 用 ESXCLI 命 令 司 用 VSAN 流 量 类 型 ， 并 且 也 可 以 为 其 他 两 合 主机 
提前 做 同样 的 操作 。 这 个 步骤 不 是 马上 必需 的 ， 因 为 它 可 以 稍 后 在 vCenter Server 搭 建 起 来 后 通过 vSphere Web 客 户 峭 来 完 
成 。 你 需要 创建 一 个 VMkerne| 接 口 或 是 选择 一 个 已 有 的 VMkerne| 接 口 来 启用 VSAN 流 量 类 型 ，ESXCLI 命 令 行 如 下 : 


esxcli vsan network ipv4 add -i «VMkernel-Interface» 


11. 此 时 ， 你 已 经 在 这 个 单 台 ESXi 主 机 上 配置 出 了 一 个 有 效 的 VSAN 数 据 存 储 。 你 可 以 通过 登录 到 vSphere C# 客 户 端 来 进行 
验证 ， 此 时 应 该 可 以 看 见 VSAN 数 据 存 储 已 经 挂 载 天 了 ESXi 主 机 上 。 现 在 可 以 部 署 vCenter Server Applicance OVA/OVF 到 数 
据 存 储 并 启动 这 虚拟 机 了 。 


12. 一 旦 vCenter 部 署 完 成 ， 你 束 可 以 创建 群集 了 ， 然 后 在 群集 上 局 用 VSAN， 并 将 此 上 自 引 导 的 主机 作为 第 一 人 台 主 机 加 入 到 群 


集中 。 
13. 现 在 可 以 将 策略 四 设 回 默认 值 了 。 


14. 你 应 该 尽快 将 剩余 的 主机 都 加 入 到 群集 中 。 此 外 ， 你 还 需要 创建 一 个 新 的 虚拟 机 存储 荣 略 ， 并 将 其 和 vCenter Serveri 
拟 机 相关 联 ， 并 确保 vCenter Server 虚 拟 机 和 这 个 新 的 策略 匹配 。 


[1] 绿地 项 目 (Greenfield deployment) 指 的 是 全 新 的 从 堆 开 始 构 建 的 项 目 。 
[2] 指 VSAN 存 储 默 认 策 略 。 





译 者 注 


7.9 人 小结 


通过 本 章 的 演示 可 以 知道 ，VSAN 很 容易 进行 横向 或 纵向 的 扩展 。 即 使 配置 成 手工 方式 ， 添 加 新 的 主机 或 新 的 磁盘 仍然 只 需 
要 点 击 几 下 鼠标 即 可 。 对 于 那些 偏好 命令 行 的 管理 员 来 说 ，ESXCLI 是 vSphere Web 客 户 端的 一 个 极 好 的 替代 品 。 对 于 偏好 
PowerShell 的 管理 员 来 说 ，VMware 也 已 经 发 布 了 大 量 cmdlets 命 令 集 。 


第 8 草 ”VSAN 延 伸 群 集 


本 草 则 在 针对 一 种 名 为 延伸 群集 (Stretched Cluster) 的 特殊 类 型 的 VSAN 配 置 向 读者 提供 额外 且 深 入 的 信息 ， 我 们 将 摘 述 
设计 考量 因素 、 操 作 步 又 以 及 和 延伸 群集 特定 配置 相关 的 故障 场景 。 可 是 为 什么 有 人 一 开始 想 要 搭建 一 个 延伸 群集 呢 ? 


延伸 群集 配置 提供 了 在 数据 中 心 之 间 平 衡 虚拟 机 部 署 的 能 力 。 这 么 做 的 原因 有 很 多 : 例如 容 灾 的 需要 或 者 在 对 整个 站 点 进行 
维护 的 同时 不 引起 任何 虚拟 机 宕 机 ， 能 做 到 这 点 是 因为 计算 、 存 储 和 网 络 资 源 都 能 跨 站 点 可 用 。 基 于 此 ， 延 伸 群 集 也 提供 了 不 受 
限制 地 在 不 同 地 点 之 间 主 动 地 进行 资源 负载 均衡 的 能 力 。 


8.1 ”什么 是 延伸 群集 


在 深入 这 个 话题 之 前 ， 我 们 先 来 讨论 一 下 VSAN 延 伸 群 集 是 怎么 构成 的 。 当 说 起 VSAN 延 伸 群 集 ， 我 们 指 的 是 用 vSphere 
Web 客 尸 端 完 成 延伸 群集 工作 流程 时 部 署 完成 的 那个 配置 。 这 个 流程 特别 利用 到 了 一 台 需 要 部 署 在 第 三 个 站 点 的 见证 主机 ， 这 
台 主 机 可 以 是 物理 机 也 可 以 是 虚拟 机 。 通 过 这 个 工作 流程 ，VSAN 群 集 横 跨 两 个 主 主 模 式 (Active/Active) 的 站 点 创建 起 来 ， 完 
全 相同 数量 的 ESXi 主 机 平均 分 布 在 这 2 个 站 点 中 ， 并 且 如 前 所 述 ， 还 有 一 台 见 证 主机 位 于 第 三 个 站 点 。 数 据 站 点 之 间 是 通过 高 市 
芝 / 低 延迟 的 链 路 连接 起 来 的 ， 放 置 VSAN 见 证 主机 的 第 三 个 站 点 则 和 双 活 的 数据 站 点 都 有 链 路 连接 ， 连 接 数 据 站 点 和 见证 站 点 
的 链 路 可 以 是 低 市 宪 / 更 高 延迟 的 。 图 8-1 显 示 的 是 延伸 群集 的 逻辑 视图 。 


每 个 站 点 都 被 配置 成 一 个 VSAN 故 障 域 ， 一 个 站 点 就 是 一 个 故障 域 ， 最 多 支持 3 个 站 点 (两 个 数据 站 点 和 一 个 见证 站 点 ) 。 
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图 8-1 延伸 群集 示例 


用 来 描述 一 个 VSAN 延 伸 群 集 配置 的 命名 规范 是 X+Y+Z。X 是 数据 站 点 A 中 ESXi 主 机 的 数量 ，Y 是 数据 站 点 B 中 ESXi 主 机 的 数 
量 ，Z 是 站 点 C 中 见证 主机 的 数量 。 数 据 站 点 是 虚拟 机 的 所 在 地 。 受 支持 的 最 小 配置 是 1+1+1 (3 节点 ) ， 在 写作 本 书 时 的 最 大 
配置 是 15+15+1 (31 节 点 ) 。 


在 VSAN 延 伸 群 集中 ， 任 何 配置 都 只 有 一 个 见证 主机 。 对 于 管理 着 多 个 延伸 群集 的 部 署 方 案 而 言 ， 每 个 群集 必须 具备 一 台 自 
己 专用 的 见证 主机 。 


部 署 在 VSAN 延 伸 群 集中 的 虚拟 机 都 会 在 站 点 A 拥有 一 个 数据 副本 并 在 站 点 B 拥 有 第 二 个 数据 副本 ， 且 它 的 见证 组 件 位 于 站 
所 C 的 见证 主机 上 。 这 个 配置 是 通过 故障 域 来 实现 的 。 这 样 ， 在 某 个 站 点 整 体 出 现 故 障 的 时 候 ， 至 少 有 一 份 完整 的 虚拟 机 数据 副 
本 存在 并 且 可 用 的 组 件 大 于 50%， 使 虚拟 机 得 以 继续 存活 在 VSAN 数 据 存 储 中 。 如 果 虚 拟 机 需要 在 其 他 数据 站 点 重启 ，vSphere 
HA 会 处 理 该 任务 。 


8.2 SUPE 


配置 VSAN 延 伸 群 集 至 少 要 求 具 有 vSphere 6.0.0 Update1 (U1) 一 一 这 意味 着 同时 需要 vCenter Server 6.0 U1 和 ESXi 6.0 
U1。 这 个 版 本 的 vSphere 包 含 VSAN 版 本 6.1， 这 是 文 持 VSAN 延 伸 群 集 的 最 低 版 本 要 求 。 不 过 ， 我 们 强烈 建议 使 用 可 获取 的 最 新 
版 本 的 VSAN ， 在 写作 本 书 时 为 VSAN 6.21. 


从 许可 证 的 角度 来 看 ， 过 去 12 个 月 来 变化 非常 大 ， 励 其 是 延伸 群集 的 许可 证 要 求 上 友 生 了 很 多 变化 。 在 VSAN 版 本 6.1 中 ， 新 
出 现 了 一 个 叫做 Advanced 的 许可 证 类 型 ， 这 个 版 本 同时 包括 全 闪存 和 延伸 群集 这 2 个 功能 。 但 是 对 于 版 本 6.2 来 说 ， 又 引入 了 一 
个 新 的 许可 证 类 型 Enterprise， 它 包括 延伸 群集 和 QoS (限制 ) 功能 ， 而 Advanced 版 仪 包括 全 闪存 、 去 重 / 讨 缩 和 Raid-5/6 功 
能 。 表 8-1 显 示 了 版 本 和 功能 对 应 关系 的 完整 列表 。 注 意 ，Enterprise 许 可 证 必须 先 部 署 到 群集 内 的 所 有 主机 上 ， 之 后 才 会 形成 
延伸 群集 。 在 做 出 购买 决定 之 前 ， 请 务必 人 参考 最 新 的 VMware 许可 证 信息 。 


表 8-1 许可 证 版 本 


Enterprise 【企业 版] 
到 于 存储 生路 的 管理 x 
Be / 写 缓存 
RAID-1 
分 布 式 交换 机 
VSAN 快照 和 克隆 
TET) x | x 


复制 (5 分 钟 RPO) 


e: 
p< 


si eel Eel Eal Eel Eal Eal kal Eal Eal Eal Ea 


软件 校 验 和 

全 闪存 

去 重 和 压缩 o X o) 
延伸 群集 | 
Qs(ors 限 制 | | | 


用 于 VSAN 的 vsphere 版 本 则 没有 限制 。 然 而 ， 就 VSAN 延 伸 群 集 的 功能 来 说 ，vSphere DRS (分 布 式 资源 调度 ) 功能 是 相 
当 有 必要 的 。DRS 协 助 决定 了 虚拟 机 的 初始 放置 位 置 ， 并 能 在 站 点 故障 恢复 之 后 帮助 虚拟 机 定位 到 正确 的 站 点 。 如 果 没有 DRS， 
管理 员 将 不 得 不 手工 处 理 这 些 任务 。 注 意 DRS 现 在 只 能 在 vSphere Enterprise Plus 版 本 中 获得 (2016 年 第 一 季度 之 前 ，DRS 还 
存在 于 Enterprise 版 中 ， 但 是 VMware 已 经 宣布 今后 将 不 再 提供 Enterprise 版 本 许可 证 ) 。 


就 VSAN 功 能 来 说 ， 延 伸 群 集 可 以 运行 在 混合 磁盘 配置 或 者 全 闪存 配置 上 。 就 虚拟 磁盘 on-disk 格 式 来 说 ， 要 求 的 最 低 版 本 
是 v2， 这 是 VSAN 6.0 的 默认 格式 (VSAN 6.2 新 引入 了 on-disk 磁 盘 格式 v3) 。 


见证 主机 可 以 是 物理 ESXi 主 机 ， 也 可 以 是 虚拟 设备 (以 虚拟 机 形式 存在 的 ESXi 主 机 ) 。VMware 现 在 还 给 需要 的 客户 提供 预 
先 配 置 好 的 见证 虚拟 设备 。 同 一 台 见 证 主机 / 虚 机 不 能 在 多 个 VSAN 延 伸 群 集 之 间 共 享 。 


下 面 刘 出 一 些 VSAN 中 支持 的 但 是 不 饿 VSAN 延 伸 群 集 支 持 的 特性 。 


: SMP-FT， 这 是 vSphete 6.0 中 新 加 入 的 虚拟 机 Fault'Tolerant (容错 ) 机 制 ， 支 持 标 准 VSAN 6.1 部 着 ， 不 过 写作 本 书 时 ， 这 个 


功能 不 支持 任何 种 类 的 延伸 群集 ， 无 论 是 基于 VSAN 的 延伸 群集 还 是 基于 vMSC (vSphere 城 域 存储 群集 ) 99; 





的 ， 它 必须 被 保留 为 默认 值 “ 性 和 


已 


: NumberOfFailureToTolerate (允许 的 故障 数 ) 的 最 大 值 在 VSAN 延 伸 群 集中 为 1， 而 对 于 标准 VSAN 来 说 则 为 3; 
| VSAN 延 伸 群 集中 ， 故 障 域 的 上 限 为 3 个 ， 而 标准 VSAN 可 以 高 得 多 
-© VSAN 6.2 新 加 入 的 功能 


>» 


容错 模式 可 以 设置 为 “容量 
Uu » 


合 里 
(也 就 是 使 用 RAID-1) 。 
8.3 


网 络 和 延迟 要 求 


(也 就 是 允许 使 用 RAID-5/6) ， 在 延伸 群集 配置 中 是 不 支持 


当 VSAN 通 过 故障 域 将 延伸 群集 模式 部 署 到 多 个 站 点 时 ， 有 几 个 特定 的 网 
数据 站 点 之 间 二 层 网 络 和 三 层 网 络 都 受 支持 


-7o 


络 要 求 必 须要 满足 : 
- 建议 使 用 二 层 网 络 
数据 站 点 和 见证 站 点 之 间 必 须 用 三 层 网 络 
` 这 是 为 了 防止 IO 被 路 由 到 低 带 


AP 
DJ 


AL 


的 连接 见证 站 点 的 链 路 上 
数据 站 点 之 间 必 须 启 用 组 播 


商 以 获取 关于 组 播 路 由 的 最 佳 实践 和 限制 信息 。 


. 对 于 三 层 模式 来 说 ， 强 烈 建议 采用 PIM (协议 独立 的 组 播 ，Protocol-Independent Multicast) 稀疏 模式 。 
数据 站 点 和 见证 站 点 之 间 只 需要 单 播 (Unicast) 


` 为 了 简化 三 层 网 络 的 配置 ， 对 组 播 的 要 求 被 移 除了 


请 咨询 网 络 供应 
数据 站 点 之 间 推 荐 带 


am 、 
AU 


数据 站 点 之 间 的 最 大 往返 延迟 (Maximum round trip latency) 7254. 


数据 站 点 和 见证 站 点 之 间 的 最 大 往返 延迟 为 200 毫 秒 。 


为 10Gbps 
数据 站 点 和 见证 站 点 之 间 推 荐 带 


AP 
ui 


宽 为 100Mbps 
对 于 任何 种 类 的 延伸 式 的 vSphere 部 署 来 说 网 


络 总 是 
单 棒 的 指南 ， 其 中 包含 大 量 关 于 网 络 市 锅 计 算 和 网 络 拓扑 考量 细节 的 内 容 。 以 上 关于 市 宽 的 建议 残 是 取 目 
环境 中 的 要 求 可 以 通过 实际 的 需求 用 同样 的 方法 计算 出 来 ， 具 体 方法 请 


6.1-stretched-cluster-bandwidth-sizing.pdf 


Akg 
cluster-guide.pdf 


D 照 以 下 2 篇 文档 
[1] 


这 2 篇 


一 个 热门 话题 ，VSAN 延 伸 部 署 也 是 这 样 。VMware 已 经 友 布 了 2 篇 非 
局 


T 
文章 。 关 于 你 的 
: Virtual SAN 6.1 stretched cluster bandwidth sizing guidance https://www.vmware.com/files/pdf/products/vsan/vmware-vittual-san- 


: Virtual SAN 6.2 stretched cluster guidel"! https:/ /www.vmwate.com/ files/pdf/products/vsan/vmware-virtual-san-6.2-stretched- 


本 书 翻译 完 成 时 ， 此 链接 已 失效 。 关 于 延伸 群集 的 指南 文档 可 以 参考 https://storagehub.vmwatre.com/#!/vmware-vsan/vsan- 





stretched-cluster-2-node-guide/ o 译 者 注 


8.4 _V3SAN 延 伸 群 集中 的 新 概 信 


一 个 常见 的 问题 是 延伸 群集 和 通常 的 故障 域 有 什么 不 同 。 故 障 域 使 得 所 谓 的 “机 染 感 知 ” (rack awareness) 功能 成 为 可 
能 ， 这 个 功能 可 以 将 虚拟 机 的 组 件 分 布 到 不 同 机 架 的 主机 上 ， 这 样 即使 整个 机 架 出 现 故障 ， 庶 拟 机 仍然 可 用 。 这 些 机 架 通 常 来 说 
是 位 于 同一 个 数据 中 心 ， 如 果 友 生 了 涉及 整个 数据 中 心 的 大 问题 ， 那 么 故障 域 无 法 保证 虚拟 机 的 可 用 性 。 


延伸 群集 本 质 上 是 构建 在 故障 域 的 基础 上 的 ， 它 可 以 提供 所 谓 的 “数据 中 心 感知 ” (data center awareness) 能 力 。 即 使 
整个 数据 中 心 出 现 灾 难 性 的 故障 ，VSAN 延 伸 群 集 也 可 以 提供 虚拟 机 可 用 性 。 这 主要 是 通过 跨 数据 中 心 的 虚拟 机 对 象 智能 组 件 放 
置 、 站 点 偏好 、 读 本 地 性 和 见证 主机 来 实现 的 。 


见证 主机 是 一 个 ESXi 主 机 (或 虚拟 设备 ) ， 其 目的 是 存放 虚拟 机 对 象 的 见证 组 件 。 见 证 必须 能 同时 连接 到 加 入 群集 的 VSAN 
节点 和 备用 节点 ( 主 节点 和 备用 节 点 已 经 在 第 5 草 介 绍 过 了 ) 。 在 稳定 状态 时 ， 主 节点 位 于 “首选 站 点 (preferred site) 而 备 
HAPAT “huha (secondary site) 。 


注意 ， 见 证 虚拟 设备 自 带 许可 证 ， 它 不 会 消耗 任何 vSphere 或 VSAN 许 可 证 。 因 此 我 们 推荐 使 用 见证 虚拟 设备 而 不 是 物理 的 
见证 主机 。 见 证 虚拟 设备 在 vSphere Web 客 尸 端 中 显示 为 一 个 与 普通 ESXi 主 机 不 同 的 图 标 ， 可 以 让 你 更 快 地 找到 它 ， 如 图 8-2 所 
Ze 
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图 8-2 ”见证 虚拟 设备 图 标 


在 延伸 群集 配置 阶段 的 另 一 个 新 术语 是 前 面 刚 提 到 过 的 “ 百 选 站 点 ” (preferred site) 和 “辅助 站 点 ” (secondary 


site) 。“ 首 选 ” 的 站 点 是 VSAN 在 友 生 站 点 间 网 络 隔离 、 站 点 之 间 无 法 通信 的 情况 下 希望 保持 运行 的 站 点 。 可 以 说 “首选 站 
点 ”是 希望 具有 最 高 可 靠 性 的 站 点 。 


因为 虚拟 机 可 以 运行 在 两 个 站 点 中 的 任意 一 个 ， 如 果 连 接站 点 1 和 站 点 2 的 网 络 连接 中 断 ， 但 是 它们 又 都 还 能 连通 见证 ， 那 
么 首选 站 点 就 会 存活 ， 成 为 VSAN 组 件 继 续 保 持 活动 的 那个 站 点 ， 而 位 于 非 首 选 站 点 的 存储 会 被 标记 为 宕 机 ， 且 那个 站 点 上 的 
VSAN 组 件 会 被 标记 为 absent (不 存在 ) 。 这 也 意味 着 辅助 站 点 上 运行 的 虚拟 机 会 在 首选 站 点 被 重启 ， 以 使 其 继续 可 用 。 在 延伸 
群集 上 启用 的 vSphere HA 会 自动 处 理 这 些 动作 。 


在 非 延 伸 的 VSAN 群 集中 ， 虚 拟 机 的 读 操作 会 家 分 散 到 数据 在 群 集中 的 所 有 副本 上 。 在 FTT 为 1， 也 融 是 数据 有 2 个 副本 的 情 
况 下 ，50% 的 读 来 目 副本 1 而 另外 ?0% 来 目 副本 2。 类 似 地 ， 非 延伸 群集 在 FTT 为 2 的 情况 下 ， 数 据 有 3 个 副本 ，33% 的 读 来 目 副本 
1，33% 的 读 来 目 副 本 2， 还 有 33% 的 读 来 目 副本 3。 


不 过 ， 对 于 延伸 VSAN 和 群集 来 涡 ， 我 们 希望 避免 这 种 情况 ， 因 为 我 们 不 希望 通过 跨 站 点 的 链 路 来 读 取 数据 ， 这 会 对 1/O 增 加 
不 必要 的 延迟 并 浪费 宝贵 的 跨 站 点 链 路 市 守 。 由 于 VSAN 延 伸 群 集 支 持 的 FTT 最 大 值 是 1， 数 据 会 有 2 份 拷贝 (副本 1 和 副本 2) 。 


我 们 不 希望 50% 的 读 从 站 点 1 来 ， 另 外 50% 的 读 跨 过 站 点 间 的 链 路 从 站 后 2 过 来 ， 而 是 在 可 能 的 情况 下 让 100% 的 读 1O 都 来 自 本 地 
Ue FS. 


VSAN 的 分 布 式 对 象 管理 器 (DOM) 负责 处 理 读本 地 性 (read locality) 。 在 VSAN 和 群集 中 DOM 不 仅 负责 虚拟 机 存储 对 象 
的 创建 ， 还 负责 提供 通 往 这 些 对 象 的 分 布 式 数据 访问 路 径 。 每 个 对 象 都 有 一 个 DOM 属 主 。DOM 分 3 个 角色 : 客户 (cient) 、 
BE (owner) 和 组 件 管理 器 。DOM 属 主 协 调 对 象 访问 ， 包 括 读 、 锁 以 及 对 象 配 置 和 重 配置 。 所 有 的 对 象 变更 和 写 入 也 都 要 通 
过 属 主 。 在 VSAN 延 伸 群 集中 ， 对 象 DOM 属 主 的 一 项 增强 是 它 现在 将 属 主 所 在 的 “故障 域 ” 加 进 了 考量 因素 ， 并 将 100% 的 读 交 
给 同一 个 “故障 域 ”中 的 那个 副本 。 


对 于 混合 配置 ， 读 本 地 性 男 有 一 个 需要 考量 的 因素 。 管 理 员 应 该 避免 在 数据 站 点 之 间 进 行 不 必要 的 虚拟 机 vMotion。 因 为 读 
缓存 数据 块 保存 在 一 个 站 后 (本地) ， 如 果 虚 拟 机 可 以 目 由 移动 到 远 端 站点， 迁移 后 站 点 的 缓存 会 变 “ 冷 ”。 此 时 性 能 不 会 达到 
最 优 ， 直 到 缓 仔 重 新 “ 热 ” 起 来 。 为 了 避免 这 种 情况 ， 应 该 使 用 软 天 联 性 规则 (虚拟 机 /主机 关联 规则 ) 来 保证 虚拟 机 尽 可 能 地 
运行 在 本 地 站 点 /故障 域 。 注 意 ， 这 只 适用 于 混合 配置 的 情况 ， 因 为 全 闪存 配置 是 没有 读 缓存 的 。 


9.5 ”延伸 群集 的 配置 


VSAN 延 伸 群 集 的 安 委 和 VSAN 早 先 版 本 中 故障 域 的 实施 几乎 一 模 一 样 ， 只 多 几 个 额外 的 步骤 。 本 节 将 市 领 读 者 一 步 一 步 地 
完成 延伸 群集 的 配置 过 程 。 


在 真正 开始 配置 延伸 群集 之 前 ， 我 们 需要 确保 见证 主机 已 被 安装 、 配 置 完成 并 且 两 个 数据 站 点 都 能 访问 到 一 一 这 基本 上 瓯 
是 在 ESXi 主 机 和 见证 虚拟 设备 上 添加 一 些 额外 的 静态 路 由 ， 我 们 接 下 去 很 快 就 会 讲 到 。 在 配置 VSAN 延 伸 群 集 时 ， 只 有 数据 主机 
必须 放置 在 vCenter Server 中 的 VSAN 群 集 对 象 里 。 见 证 主机 必须 保持 在 群集 之 外 ， 而 且 将 来 也 不 能 加 入 到 vCenter Server 群 集 
中 。 


注意 ， 见 证 OVA 必 须 通过 vCenter Server 来 部 署 。 为 了 完成 见证 虚拟 机 的 部 署 和 配置 ， 它 的 第 一 次 局 动 也 必须 通过 vCenter 
Server 来 实现 。 见 证 OVA 还 只 支持 标准 虚拟 交换 机 (VSS) 部 署 。 


见证 主机 的 部 署 相当 简单 直接 ， 和 大 多 数 虚 拟 设 备 的 部 署 类 似 ， 如 图 8-3 所 示 。 





Select source 
Select the source locaton 





v 1b Revew details Enter à URL to download and install the OVF package from the Internet, or browse to 3 locabon accessible from your computer 


such as a local hard drive. a network share. or a CD/DVO drive 
Accept License 


ic Agreements 


(e) Local file 
[ Browse | Ztemp'ponordanis reten-vsaniMAware-VrnualSAN-Winess -5.0.0.update01-2990780 ova 


» € "P - ee 

éL oUm. i.a ITSU € R 
^" Salo "anms 
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3 Ready to complete 


Next Finish Cancel 


us 
图 8-3 ”见证 虚拟 设备 部 着 


唯一 真正 需要 做 出 的 决定 是 天 于 延伸 群集 配置 的 期 望 大 小 。 有 3 个 选择 : 如 果 预 计 部 署 在 延伸 群集 上 的 虚拟 机 只 有 10 个 或 更 
少 ， 选 择 Tiny (微型 ) 配置 ; 如 果 预 期 的 虚拟 机 大 于 10 个 但 是 小 于 500 个 ， 则 应 该 选择 Medium (PÆ) 配置 ， 这 也 是 默认 的 选 
项 。 对 于 大 于 500 个 虚拟 机 的 环境 ， 选 择 Large (大 型 ) 。 在 选择 特定 配置 选项 的 时 候 ， 疝 导 程序 中 会 相应 地 显示 其 虚拟 设备 所 
需要 的 资源 要 求 (CPU、 内 存 和 磁盘 ) ， 如 图 8-4 所 示 。 


4 Source Select configuration 


Select a deployment configurabon 
1a Select source 


1b Review details Configuration: | Medium (up to 500 VMs) E 


1c Accept License 
5 agreements Configuration for Medium Virtual SAN Deployments of up to 500 Vs 


2 Destination *2vCPUSs 


2a Select name and folder * 16GB VRAM 
* 1x 8GB ESXI Boot Disk 
* 1x 350GB Magnetic Disk 
2c Select storage * 1x 10GB Solid-State Disk 
* Maximum of 22K Components 


2b Select configurabon 


2d Setup networks 
2e Customge template 
3 Ready to complete 





Finish Cancel | 
n Al 





图 8-4 选择 配置 大 小 


接 下 去 要 选择 的 是 见证 设备 所 在 的 数据 存储 和 将 要 使 用 的 网 络 。 网 络 方面 ， 在 部 署 的 时 候 会 同时 关联 2 个 网 络 接口 (管理 网 
ZEMIVSANDWZR) ， 所 以 之 后 在 需要 将 VSAN 流 量 和 管理 沈 量 隅 开 的 时 候 ， 还 需要 再 次 更 新 VSAN 网 络 配置 。 最 后 ， 在 提供 了 
root 密 码 后 ， 见 证 设备 就 会 被 部 署 。 


如 果 省 理 流量 和 VSAN 流 量 跑 在 不 同 的 网 段 上 (通常 情况 都 是 这 样 ) ， 那 么 在 部 署 之 后 ， 必 须 将 此 配置 区 更 应 用 到 虚拟 机 。 
这 可 以 通过 Web 客 户 问 实现 ， 如 图 8-5 所 示 。 


SDRS Rules 


| VLANT0-147.70.0.0 (stretched-vswit | = | 加 Connected 


I Connect At Power On 


3 | 


VMXNET 3 BH 
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(Vl Enable 


Â This type of network adapter is not supported by (0) VMware 
ESXi 5.x 


00:50 56:96 237 83 Automatic | 
| Normal |=] 50 |- 

[o |) (mws |x) 
[unm |x) (mows |=) 

| VLANB0--147.80.0.0 (stretched-vswi |=] [V| Connected 


[V] Connect At Power On 


LI 


VMXNET 3 - 








Enable | 


Â This type of network adapter is not supported by (0) VMware 
ESXi 5x 


0050 55-:061b ec Automatic |v] 
| Normal |] 50 |- 
?Je) (vow I-] | 
wem pe 


Specdfy custom settings 


— s 


Compatibility. ESXi 5.5 and later (VM version 10) = OK || Cancel 











图 8-5 网络 变 


此 时 ， 见 证 设备 融 可 以 开机 了 。 然 后 连接 到 见证 的 控制 面板 ， 给 管理 网 络 添加 正确 的 网 络 信息 ， 例 如 IP 地 址 和 DNS。 这 和 


用 DCUI 来 给 一 台 物 理 ESXi 主 机 添加 管理 网 络 的 信息 完全 一 样 。 完 成 后 ， 见 证 设备 就 可 以 如 一 台 普 通 的 主机 一 样 添加 到 vCenter 
的 清单 中 了 。 


Qua “No datastote have been configured" 消息 是 因为 说 套 的 ESXi 主 机 没有 VMFS 数 据 存 储 。 忽 略 这 条 报警 消息 完全 没有 


一 旦 见证 设备 (EXEBJESXicEWV) 被 加 入 到 vCenter， 下 一 步 束 是 在 见证 设备 上 配置 正确 的 网 络 设 置 。 在 vCenter 的 清单 中 


选择 该 见证 设备 ， 导 航 到 Manager (管理 ) 一 Networking (网 络 ) 一 Virtual Switch (虚拟 交换 机 ) 。 见 证 设备 有 一 个 预定 义 
的 网 络 痛 口 组 叫做 witnessPg。 注 意 ， 不 要 删除 这 个 器 口 组 ， 因 为 它 经 过 了 特别 的 配置 ， 使 其 网 卡 的 MAC 地 址 和 藤 套 ESXi 主 机 
的 MAC 地 址 相 匹 配 。 在 这 个 视图 中 可 以 看 到 用 于 VSAN 流 量 的 VMkernel 端 口 。 如 果 VSAN 网 络 中 没有 DHCP 服 务 器 (这 很 有 可 
能 ) ， 那 么 VMkernel 网 卡 就 不 会 有 一 个 有 效 的 IP 地 址 ， 它 也 不 会 被 打上 VSAN 流 量 的 标签 ， 因 此 需要 配置 好 IP 地 址 ， 并 给 
VMkernel 端 口 打上 VSAN 流 量 的 标签 。 


最 后 并 且 也 很 重要 的 一 点 是 ， 在 配置 VSANt 延 伸 群 集 之 前 ,我 们 需要 确保 位 于 数据 站 点 的 主机 上 的 VSAN 网 络 可 以 连通 到 见 
证 主机 的 VSAN 网 络 ， 反 之 亦 然 。 要 实现 这 一 点 ， 管 理 员 必须 实施 静态 路 由 ， 它 可 以 告诉 TCP/IP 堆 枝 到 达 某 个 特别 的 网 络 需 要 经 
过 不 同 的 路 径 。 现 在 我 们 可 以 告知 数据 主机 上 的 TCP/IP 堆 配 通 过 不 同 的 网 络 路 径 (而 不 是 默认 网 天 ) 来 连通 见证 主机 上 的 VSAN 
网 络 。 类 似 地 ， 我 们 可 以 告知 见证 主机 用 另 一 条 路 径 来 连通 数据 主机 上 的 VSAN 网 络 ， 而 不 是 通过 默认 网 天 。 


请 再 次 注意 ， 大 多 数 情 况 下 VSAN 网 络 惑 像 一 个 在 数据 站 点 之 间 延 伸 了 的 2 层 广播 域 ， 但 是 要 连通 到 见证 设备 的 VSAN 网 络 
必须 经 过 3 层 网 络 。 因 此 静态 路 由 对 于 连通 数据 主机 和 见证 主机 之 间 的 VSAN 网 络 是 必需 的 ， 但 是 对 于 不 同 站 点 之 间 的 数据 主机 
通过 VSAN 网 络 来 进行 数据 通信 和 则 可 能 不 是 必需 的 。 


添加 一 条 静态 路 由 的 esxcli 命 令 是 : 


esxcli network ip route ipv4 add -n «remote network» -g «gateway» 


可 以 用 vmkping-l<vmk> <ipaddress> 命 令 来 检查 见证 主机 和 物理 主机 是 否 可 以 通过 VSAN 网 络 相互 连通 。 现 在 见证 已 经 
开局 并 可 以 访问 ， 要 形成 一 个 VSAN 延 伸 群 集 兢 只 剩 下 几 分 钟 的 事情 了 。 下 面 将 列 出 安装 VSAN 延 伸 群 集 必须 要 执行 的 步骤 。 这 
个 例子 中 部 署 的 是 一 个 2+2+1 的 延伸 群集 ， 即 在 首选 站 点 有 2 台 ESXi 主 机 ， 在 辅助 站 点 也 有 2 人 台 ESXi 主 机 ， 且 有 1 台 见 证 主机 位 于 
第 三 个 站 所 。 


配置 步骤 1a: 创建 一 个 VSAN 延 伸 群 集 


在 这 个 例子 中 有 4 个 节点 : esx01-sitea、esx02-sitea、esx01-siteb 和 esx02-siteb， 如 图 8-6 所 示 。 所 有 4 台 主 机 都 位 于 一 个 
叫做 stretched-vsan 的 群集 中 。 第 5 台 主 机 witness-01 是 一 台 见 证 主机 ， 位 于 它 自 己 的 数据 中 心 且 还 未 被 加 入 到 群集 中 ， 但 是 已 
经 被 作为 一 台 ESXi 主 机 加 入 到 了 这 个 vCenter Server 中 。 


根据 你 想 怎 样 配置 群集 ， 可 以 选择 在 创建 VSAN 和 群集 的 同时 创建 延伸 群集 ， 或 者 放 到 之 后 配置 故障 域 时 去 创建 。 流 程 是 元 
一 样 的 ， 结 果 也 是 一 样 的 。 注 意 ，VSAN 6.2 的 新 功能 如 去 重 和 压缩 也 可 以 在 延伸 群集 被 司 用 ， 而 且 校 验 和 功能 也 完全 受 广 持 。 
不 过 ， 延 伸 群 集 不 支持 RAID 5/6， 因 为 这 相应 地 需要 最 少 4 个 或 6 个 故障 域 。 


i 
Select how you want your Virtual SAN cluster to behave. 
2 Network validation 


3 Claim disks Disk Claiming 


Comi. aasstosomge (Marua [7 


S Seed ufineas host Requires manual claiming of any new disks on the included hosts to the shared storage. 
6 Claim disks for withess host 
: t, Deduplication and Compression 

[V] Enable 


Deduplication and compression will improve the total cost of ownership by reducing the data stored on your physical 
disks. Deduplication and compression only works for all-flash disk groups. Creating hybrid disk groups is not allowed 
when Deduplication and compression is turned on. 


器 Allow Reduced Redundancy 


By choosing this option, you agree that VSAN will be able to reduce the protection level of your VMs, if needed, 
during the operations of enabling Deduplication and compression. This option is only usable if your setup is at the 
limit of the protection level, configured by the Storage policy of a specific VM (e.g. VM with RAIDS redundancy in a 
cluster with 4 hosts). 


Fault Domains and Stretched Cluster 
© Do not configure 


(O 2 host Virtual SAN cluster 
Two hosts at remote office * witness host in the HQ office to enable failures to tolerate. 

(€) Stretched cluster 
Two active sites (evenly split) that are connected via a high bandwidth/low latency link, as well as a third site hosting 
a Virtual SAN Witness host which is connected to both data sites. 

© Configure fault domains 


You can group Virtual SAN hosts that could potentially fail together by creating a fault domain and assigning one or 
more hosts to it. Failure of all hosts within a single fault domain is treated as one failure. If fault domains are specified, 
Virtual SAN will never put more than one replica of the same object in the same fault domain. 





图 8-6 ”开始 创建 延伸 群集 
配置 步骤 1b: 创建 延伸 群集 


如 果 VSAN 群 集 已 经 形成 ， 也 可 以 单独 创建 延伸 群集 。 要 人 在 已 有 VSAN 和 群集 的 情况 下 配置 延伸 群集 和 故障 域 ， 可 以 导航 到 
Manage (管理 ) 一 Virtual SAN 一 Fault Domains (故障 域 ) ， 如 图 8-7 所 示 ， 并 在 延伸 群集 的 部 分 点 击 Configure (配置 ) 按 
钮 ， 束 可 以 开始 延伸 群集 的 配置 了 。 





























图 8-7 ”配置 VSAN 延 伸 群 集 


根据 是 否 在 此 过 程 的 同时 配置 VSAN 和 群集 的 不 同 ， 你 可 能 需要 在 以 手工 万 式 进 行 VSAN 和 群集 配置 的 时 候 声明 磁盘 。 
配置 步骤 2: 将 主机 分 配 到 站 点 


在 这 一 步骤 中 ， 可 以 将 主机 分 配 到 延伸 群集 的 站 点 ， 如 图 8-8 所 示 。 注 意 ， 名 字 是 预 设 的 。 首 选 站 点 是 在 裂 脑 情 况 发 生 的 时 
候 你 希望 虚拟 机 运行 所 在 的 那个 站 点 。 在 这 个 例子 中 ， 主 机 esx01-sitea 和 esxi02-sitea 将 分 配给 首选 站 点 ， 而 主机 esx01-siteb 


- 


和 esx02-siteb 会 被 分 配给 辅助 站 点 。 


(J stretched-vsan - Configure VSAN Stretched Cluster 








1 Configure fault domains Configure fault domains 
Divide the hosts in 2 fault domains that will be used for configuring VSAN stretched cluster 
2 Select a witness host 


Claim a disk group on Preferred fault domain. (9 Secondary fault domain (9 
witness host 
4 Ready to complete Name: Preferred Name: Secondary 
Q E uta - Q biltog 
Fault Domain. Host Fault Domain/Host 
+ Hosts notin fault domain (2 hosts) 


(] esx02-sitea.rainpole.com 
民 esxi01-sitea.rainpole.com 


+ Hosts notin fault domain (2 hosts) 
民 e5x101-siteb.rainpole.com 
民 esx102-siteb rainpole.com 


P. 2hosts [æ K 


图 8-8 ”主机 选择 和 站 点 放置 
配置 步骤 3: 选择 见证 主机 和 磁盘 组 


下 一 步 是 选择 见证 主机 ， 这 里 选 的 是 witness-01。 请 再 次 注意 ， 该 主机 不 处 在 群集 中 ， 而 是 位 于 群集 之 外 。 事 实 上 ， 如 图 
8-9 所 示 ， 在 这 个 配置 中 ， 它 位 于 目 己 的 数据 中 心中 ， 但 是 已 经 被 加 入 到 管理 这 个 延伸 群集 的 同一 个 vCenter Server 中 。 


选择 见证 主机 时 ， 需 要 选择 一 个 闪存 设备 和 一 个 磁盘 来 创建 一 个 磁盘 组 。 在 见证 设备 中 这 些 已 经 存在 了 (事实 上 因为 见证 设 
备 是 虚拟 机 ， 它 们 本 质 上 都 是 VMDK) 。 


配置 步骤 4: 验证 配置 


这 个 步骤 验证 首选 故障 域 和 辅助 故障 域 各 目 已 经 具有 所 选 的 主机 ， 见 证 主机 也 的 确 是 我 们 所 选 的 见证 主机 ， 如 图 8-10 所 
RacüFinish (完成 ) 来 结束 配置 。 


不 


o 


完成 延伸 群集 配置 的 过 程 需要 几 秒 钟 ， 之 后 请 访问 故障 域 视图 来 验证 配置 是 否 和 预期 一 致 。 


配置 步骤 ?5: 对 延伸 群集 进 








Select a witness host 
Select a host which will store all the witness components for this VSAN Stretched Cluster. 


[ Q Seat 


v Æ) mgmt-«c01 rainpole com 
v [h Stretched-DataCenter 


v Ü) stetchedvsan Select a host to act as witness for the VSAN Stretched 


F esx01-5itea rainpole.com Cluster 

Ñ esxi01-siteb rainpole com 

目 es1/02-sitea rainpole com The witness host must not be in any VSAN enabled 

F es102-siteb tainpole com . Custer and must have atleast one VMkemel adapter 
v [h Winess-DataCenter . with VSAN traffic enabled, with connection to ali hosts 


in the cluster. 


witness-01.rainpole.com 


图 8-9 ”选择 见证 主机 


Ready to complete 


Review your settings selections before finishing the wizard 


Preferred fault domain name Preferred 

Hosts in preferred fault domain: e51102-sitea rainpole com 
e51101-sitea rainpole com 

Secondary fault domain name Secondary 

Hosts in secondary fault domain: e51101-5iteb rainpole com 
es1102-siteb rainpole com 

Witness host witness-01 rainpole.com 

Cache disk mpxvmhba1:CO T210 

Storage disks mpxvmhba1.CO T1110 





图 8-10 ”延伸 群集 配置 摘要 


mmm 


1T 


运行 状况 检查 


在 开始 之 前 ， 请 先 运 行 VSAN 运 行 状 况 检 查 ， 确 保 延 伸 群 集 可 以 通过 所 有 的 运行 状况 检查 。 这 些 检查 仪 仪 在 群集 如 图 8-11 所 
示 的 那样 配置 时 才 可 见 。 如 果 配 置 有 任何 问题 的 话 ， 这 些 检查 对 定位 问题 之 所 在 会 有 很 大 的 帮助 。 


Getting Started Summary | Monitor | Manage Related Objects 
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Physical Disks Test Result Test Name 


Virtual Disks © Passed Congestion 
Resyncing Components e Passed Disk capacity 
© Passed Memory pools (heaps) 
© Passed Memory pools (slabs) 
© Passed Metadata health 
© Passed Overall disks health 
© Passed Software state health 
€ Passed Stretched cluster 
© Passed Invalid preferred fault domain on witness host 
Q Passed Invalid unicast agent 
© Passed No disk claimed on witness host 
© Passed Preferred fault domain unset 
© Passed Site latency health 
© Passed Unexpected number of fault domains 
© Passed Unicast agent configuration inconsistent 
© Passed Unicast agent not configured 
© Passed Unsupported nost version 
© Passed Witness host fault domain misconfigured 
© Passed Witness host not found 
© Passed Witness host within vCenter duster 
© Passed » Limits 

















图 8-11 延伸 群集 运行 状况 


从 VSAN 有 角度 来 看 这 似乎 非常 信 单 ， 但 是 从 vSphere 的 角度 来 看 还 是 有 一 些 值得 考量 的 地 万 。 这 些 考量 并 非 是 必需 的 ,但 是 
大 多 数 情 况 下 它们 对 于 优化 性 能 和 可 用 性 有 一 定 的 价值 ， 是 值得 推荐 的 。VSAN 延 伸 群 集 指南 列 出 了 所 有 vSphere 建 议 配 置 的 细 
节 。 本 书 是 关于 VSAN 的 ， 因 此 我 们 不 会 太 深入 这 些 vSphere 配 置 的 细节 ， 而 是 推荐 你 去 参考 一 下 这 篇 本 章 前 面 也 曾经 提 及 过 的 
指南 文档 。 不 过 我 们 将 对 其 中 每 个 特定 领域 列 出 一 些 关 键 的 推荐 。 


vSphere DRS: 

- 给 每 个 数据 站 点 创建 一 个 主机 组 ， 包 括 该 站 点 的 每 一 台 主 机 ; 

- 给 每 个 站 点 创建 一 个 虚拟 机 组 ， 包 括 应 该 位 于 该 站 点 的 虚拟 机 ; 

. 给 这 些 组 创建 一 个 “应 该 ”的 软 规则 来 确保 在 “正常 ”的 运行 中 虚拟 机 位 于 正确 的 站 点 。 


这 将 确保 虚拟 机 不 会 在 延伸 群集 中 自由 漂移 ， 保 持 其 读本 地 性 ， 因 此 性 能 不 会 央 “ 缓 存 重 加 热 ” 而 受 影 响 。 从 运营 的 角度 来 


襄 ， 它 也 会 对 分 析 全 站 故障 的 影响 提供 帮助 ， 并 人 允许 你 将 类 似 于 活动 目录 和 DNS 这 类 分 布 式 服务 同时 分 友 到 全 部 2 个 站 点 去 。 


~ 


vSphere HA: 


: 启用 vSphere HA 接 入 控制 ， 使 用 基于 百分比 的 接 入 控制 ， 并 将 CPU 和 内 存 都 设置 为 50%。 这 意味 着 如 果 出 现 全 站 故障 ， 一 
个 站 点 仍 有 足够 的 容量 来 运行 所 有 的 虚拟 机 。 


: 确保 在 Advanced Setting (高 级 设置 ) 中 用 参数 das.isolationAddress0 和 das.isolationAddress1 额 外 给 每 个 站 点 都 设 定 一 个 隔离 地 


址 。 这 意味 着 如 果 一 个 站 点 出 现 故 障 ， 剩 下 的 站 点 仍然 可 以 ping 通 一 个 隔离 响应 IP 地 址 。 


* 如 果 默 认 的 隔离 地 址 不 能 在 网 络 分 区 情况 发 生 的 时 候 正确 验证 环境 的 状态 ， 用 Advanced Setting (高 级 设置 ) 中 的 


das.usedefaultisolationaddtfress 来 禁用 之 。 
禁用 数据 存储 心跳 。 因 为 在 没有 外 部 存储 的 情况 下 ， 没 有 理由 启用 这 个 特性 。 


: 选择 “vSphere HA should respect VM/host affinity rules" (vSphere HA 应 遵循 虚拟 机 和 主机 的 关联 性 规则 ) ， 这 样 在 单 台 主 
机 故障 的 时 候 ， 虚 拟 机 可 以 在 本 站 点 被 重启 。 


这 些 设置 将 保证 在 故障 友 生 时 有 足够 的 可 用 人 资源 来 协调 故障 转移 并 局 动 虚拟 机 ( 接 入 控制 )。 这 些 虚 拟 机 将 会 根据 虚拟 机 / 
主机 规则 的 定义 在 它们 相应 的 站 点 中 被 重 局 。 对 于 隔离 事件 ， 会 采取 一 切 必 要 措施 来 确保 所 有 主机 都 在 本 地 通过 了 隔离 验证 。 


8.6 故障 场景 


虚拟 数据 中 心 会 友 生 很 多 不 同 的 故障 ， 把 它们 每 一 个 都 摘 绘 出 来 不 是 我 们 的 目的 ， 因 为 这 本 身 融 够 写 一 整 本 书 了 。 本 蔬 我 们 
将 讲述 一 些 对 于 延伸 群集 配置 来 说 常见 的 故障 及 故障 恢复 。 


在 这 个 例子 中 有 一 个 1+1+1 的 延伸 群集 VSAN 部 署 ， 也 束 是 说 在 站 点 1 有 一 台数 据 主机 ， 在 站 点 2 也 有 一 台数 据 主机 以 及 在 
第 3 站 点 有 一 全 见证 主机 。 


环境 中 已 经 部 署 了 一 台 虚 拟 机 ， 检 查 其 物理 磁盘 布局 可 以 友 现 副 本 相应 地 存在 于 首选 站 点 和 辅助 站 点 中 ， 且 见证 组 件 被 放置 
在 见证 站 点 ， 如 图 8-12 所 示 。 
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图 8-12 ”虚拟 机 组 件 的 放置 


下 一 步 是 触 友 一 些 故障 并 检查 VSAN 是 如 何 处 理 这 些 事件 的 。 在 开始 测试 之 前 ， 请 确保 VSAN 运 行 状 况 检查 插件 处 于 正常 工 
作 状 态 ， 而 且 所 有 VSAN 运 行 状况 检查 的 测试 都 已 经 通过 了 。 


Qua 在 一 个 1+1+1 的 环境 中 ， 单 台 主 机 故障 类 似 于 整个 站 点 故障 。 


在 故障 场景 测试 中 ， 应 该 经 常 去 查看 运行 状况 检查 插件 ， 并 特别 天 注 那 些 版 本 6.1 融 来 的 未 通过 运行 状况 检查 的 报警 信息 。 
在 这 个 测试 过 程 中 ， 和 警报 还 可 能 出 现在 群集 一 级 。 


最 后 要 说 的 是 ， 在 故障 场景 中 的 术语 站 后 (site) , Eig OB EUST. 


单个 数据 主机 故障 (辅助 站 点 ) 


第 一 个 测试 是 在 某 一 个 (首选 或 辅助 ) 数据 站 点 上 的 一 台 主 机 友 生 故障 (如 图 8-13 所 示 ) 。 示 例 中 用 于 测试 的 虚拟 机 现在 
位 于 首选 站 点。 
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图 8-13 ”故障 场景 





辅助 站 点 上 的 主机 故障 
在 这 个 测试 的 第 一 部 分 ， 辅 助 站 点 的 主机 已 经 被 重启 ， 这 模拟 了 一 次 临时 的 断 电 故 障 . 


f£vSphere Web 客 尸 端 用 户 界 面 中 可 以 看 见 数 个 关于 辅助 站 点 主机 电源 和 高 可 用 性 的 事件 。 在 切换 到 虚拟 机 的 物理 磁盘 布 
局 视图 后 ， 稍 等 片刻 ， 残 可 以 友 现 辅助 主机 上 的 组 件 都 会 变 成 “absent” (不 存在 ) ， 如 图 8-14 所 示 。 


不 过 虚拟 机 仍然 可 以 被 访问 ， 这 是 因为 在 首选 站 点 的 主机 上 仍然 存 有 数据 的 一 份 完 整 拷 贝 ， 而 且 存 在 超过 50% 的 投票 。 请 打 
开 虚 拟 机 的 控制 台 来 验证 它 是 否 还 处 于 激活 状态 并 工作 正常 。 由 于 该 虚拟 机 的 计算 资源 所 在 的 ESXi 主 机 未 受 此 故障 影 
lj, vSphere HA 没 理 由 被 友 动 。 
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图 8-14 ”虚拟 机 组 件 不 存在 


此 时 ， 查 看 VSAN 运 行 状 况 检查 插件 ， 会 看 见 相 当 多 的 故障 事件 ， 如 图 8-15 所 示 。 如 你 所 见 ， 这 些 都 是 由 辅助 站 点 不 可 访问 
造成 的 。 
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图 8-15 运行 状况 检查 测试 未 通过 


当 你 目 己 运行 这 些 测试 的 时 候 ， 请 注意 ， 我 们 建议 你 等 到 故障 主机 成 功 地 重新 加 入 到 群集 之 后 再 开始 下 一 个 测试 。 也 丈 是 说 
先 等 所 有 未 通过 的 运行 状况 测试 重新 显示 为 OK 之 后 再 开始 下 一 个 测试 。 并 且 在 开始 下 一 测试 前 ， 请 先 确认 没有 虚拟 机 对 象 的 组 
件 处 于 absent (不 存在 ) 状态 ， 也 丈 是 所 有 组 件 都 重新 恢复 到 正 弟 状态 。 


单个 数据 主机 故障 (首选 站 点 ) 


这 下 一 个 测试 不 仅仅 会 检查 VSAN， 还 会 验证 vSphere HA 的 功能 ， 以 及 我 们 曾 建 议 的 虚拟 机 与 主机 的 关联 性 规则 是 否 工作 
正常 。 如 果 每 个 站 点 都 有 多 台 主 机 ， 那 么 当 首 选 站 点 的 一 台 主 机 友 生 故障 的 时 候 ，vSphere HA 会 在 同一 个 站 点 的 另 一 台 主 机 上 


重 局 这 个 虚拟 机 。 在 这 个 测试 中 ， 因 为 配置 是 1+1+1， 所 以 虚拟 机 不 得 不 在 辅助 站 点 重 局 。 这 也 验证 了 虚拟 机 和 主机 的 关联 
性 “应 该 ”规则 是 否 工作 正常 (如 图 8-16 所 示 ) 。 
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图 8-16 ”故障 场景 





首选 站 点 的 主机 发 生 故 障 


首选 站 点 发 生 故 障 后 会 产生 很 多 vSphere HA 相关 的 事件 。 和 之 前 的 场景 类 似 ， 首 选 站 点 的 这 些 组 件 会 显示 
7j "absent" (不 存在 ) 。 


由 于 虚拟 机 的 计算 资源 所 在 的 主机 不 再 可 用 ，vsphere HA 会 在 群集 中 的 另 一 台 主 机 上 重启 此 虚拟 机 。 验 证 这 是 否 已 经 友 生 
非常 重要 ， 因 为 它 证 明了 虚拟 机 和 主机 的 关联 性 规则 是 “应 该 ”规划 ， 即 “应 该 ”关联 在 一 起 ， 而 不 是 “必须 ”关联 在 一 起 。 如 
果 是 “必须 ”规则 的 话 ， 那 么 vSphere HA 束 不 会 在 另 一 个 站 点 重 局 此 虚拟 机 。 而 在 “应 该 ”规则 下 ， 人 允许 vSphere HA 在 没有 
符合 虚拟 机 /主机 关联 性 规则 条 件 的 其 他 主机 存在 的 情况 下 ， 在 别 的 不 符合 此 关联 性 规则 的 主机 上 重 局 虚拟 机 .。 


注意 ， 如 果 每 个 站 点 的 主机 不 止 一 台 ， 那 么 根据 “vSphere HA 应 该 遵照 虚拟 机 和 主机 的 关联 性 规则 ”， 此 虚拟 机 将 会 在 同 
一 站 点 的 另 一 台 主 机 上 重启 。 不 过 ， 由 于 这 个 测试 发 生 在 一 个 1+1+1 的 配置 上 ， 首 选 站 点 没有 多 余 的 主机 ， 因 此 虚拟 机 会 在 


30~60 秒 之 后 在 辅助 站 点 的 主机 上 重启 。 
见证 主机 故障 一 一 见证 站 氮 


一 个 常见 的 问题 是 ， 当 见证 主机 友 生 故障 时 (如 图 8-17 所 示 ) 会 友 生 什 么 事情 ? 这 应 该 不 会 对 虚拟 机 的 运行 状态 友 生 任何 
影响 ， 因 为 数据 仍然 有 完整 的 可 访问 的 拷贝 且 可 用 的 投票 大 于 50%。 不 过 位 于 见证 主机 的 见证 组 件 会 显示 为 “absent” (不 存 
在 ) 。 
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图 8-17 ”故障 场景 一 见证 主机 发 生 故 障 


在 这 个 环境 中 ， 我 们 只 是 简单 地 通过 关 掉 见证 主机 来 模拟 故障 的 影响 。 很 快 ， 虚 拟 机 的 见证 组 件 状态 就 变 
J "absent" (不 存在 ) ， 如 图 8-18 所 示 。 
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图 8-18 ”见证 组 件 不 存在 
不 过 虚拟 机 未 受 影 


ANIM BR 


响 并 继续 可 被 访问 使 用 。VSAN 虚 拟 机 对 象 的 可 访问 性 规则 是 : 必须 至 少 有 一 个 完整 的 数据 拷贝 存在 ， 且 
组 成 该 对 象 的 组 件 有 超过 50% 的 组 件 可 用 。 在 这 个 例子 中 ，2 份 数据 都 可 用 ， 也 超过 了 50%， 因 此 虚拟 机 完整 不 受 影 响 。 
网 络 故 障 





数据 站 点 和 数据 站 点 之 间 


我 们 想 要 摘 述 的 最 后 一 个 故障 场景 是 站 点 


ADX (site partition) 。 如 果 你 计划 测试 这 种 情况 (我们 强烈 推荐 你 这 么 做 ) ， 请 
在 进 


行 测试 之 前 确保 主机 隔离 响应 和 主机 隅 离 地 址 都 已 经 正确 配置 好 了 。 人 至 少 有 一 个 隔离 地 址 应 该 可 以 通过 VSAN 网 络 被 群集 中 
的 每 台 主 机 ping 通 。 图 38-19 显 示 了 这 个 故障 场景 的 配置 情 ; 
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图 8-19 ”见证 组 件 不 存在 


这 个 例子 很 特殊 ， 因 为 当 站 点 间 的 链 路 友 生 故障 的 时 候 ， 首 选 站 点 和 见证 站 点 组 成 了 一 个 和 群集， 且 大 多 数组 件 (数据 组 件 和 
见证 组 件 ) 位 于 群集 的 这 个 部 分 。 辅 助 站 点 也 组 成 了 其 自己 的 群集 ,但 是 只 有 一 个 数据 拷贝 且 无 法 访问 到 见证 。 这 导致 了 在 辅助 
站 点 上 的 2 个 虚拟 机 组 件 被 标注 成 absent (不 存在 ) ， 因 为 主机 无 法 和 存 有 数 据 副 本 的 其 他 数据 站 后 通信 ， 也 无 法 和 见证 通信 ，, 
如 图 8-20 所 示 。 这 意味 着 虚拟 机 只 能 运行 在 能 访问 到 大 多 数组 件 的 首选 站 后 上 。 
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图 8-20 ”辅助 站 点 的 2 个 组 件 显 示 为 不 存在 


从 vSphere HA 的 角度 看 ， 因 为 主机 隔离 响应 IP 地 址 是 位 于 本 地 站 点 的 VSAN 网 络 上 的 ，2 个 数据 站 点 都 应 该 能 访问 到 与 它们 
目 己 的 站 点 相应 的 隔离 响应 地 址 ， 因 此 vSphere HA 不 会 触 友 主 机 隔离 响应 。 这 意味 着 运行 在 辅助 站 点 的 虚拟 机 ， 昌 然 丢 失 了 其 
VSAN 数 据 存 储 ， 也 不 能 写 入 太 盘 ， 却 作为 一 个 计算 节点 仍然 运行 着 ! 应 该 注意 ， 无 法 访问 磁盘 组 件 的 主机 在 恢复 的 时 候 会 立刻 
杀 死 虚拟 机 实例 。 不 过 这 和 意味 看， 直到 主机 恢复 的 这 段 时 间 内 ， 同 一 侣 虚拟 机 的 2 个 实例 可 能 可 以 同时 通过 网 络 访问 到 ， 其 中 一 
个 可 以 写 入 磁盘 而 另 一 个 无 法 写 入 。 


VSAN 6.2 引 入 了 一 个 新 的 机 制 来 避免 这 种 状况 ， 这 个 功能 会 上 自动 杀 挥 无 法 访问 VSAN 组 件 的 辅助 站 点 的 虚拟 机 。 这 保证 了 
虚拟 机 可 以 安全 地 在 首选 站 点 被 重启 。 在 链 路 恢复 的 时 人 息 ， 也 不 会 有 同一 个 虚拟 机 的 2 个 实例 同时 运行 着 ， 即 使 只 有 一 秒 钟 。 如 
果 你 想 禁 用 此 行为 ， 可 以 在 主机 的 高 级 设置 中 把 VSAN.AutoTerminateGhostVm 设 置 为 0。 注 意 ， 在 6.2 版 之 前 ， 这 些 虚 拟 机 进 
程 必须 手工 杀 挥 VMware 甚至 还 提供 了 一 个 脚本 来 处 理 这 类 事情 ， 请 参考 VMware 知 识 库 文档 2135952。 


在 首选 站 操 ， 受 影响 的 虚拟 机 几乎 会 立刻 被 重启 。 当 虚拟 机 在 首选 站 点 的 主机 上 被 重 局 后 ， 可 以 去 策略 视图 点 击 物理 磁盘 布 
局 ， 应 该 会 显示 出 3 个 组 件 中 有 2 个 可 访问 。 因 为 此 时 有 一 个 完整 的 数据 拷贝 且 超 过 50% 的 组 件 可 用 ， 因 此 虚拟 机 可 被 访问 。 


从 全 站 故障 中 恢复 


之 前 描述 的 主机 故障 ， 昌 然 只 是 单 台 主 机 的 故障 ， 但 同时 也 是 全 站 故障 (complete site failure) 。VMware 已 经 修改 了 一 
些 站 点 故障 发 生 时 和 故障 恢复 时 的 VSAN 行 为 。 对 于 站 点 故障 事件 ，VSAN 现 在 会 等 候 一 些 额外 的 时 间 ， 让 故障 站 点 的 “所 
有 ” 主机 做 好 准备 。 主 要 的 原因 是 ， 如 果 在 开始 恢复 的 站 点 的 一 部 分 主机 才 开 机 工作 的 时 候 ，VSAN 就 开始 重建 过 程 的 话 ， 有 可 
能 导致 大 量 不 必要 的 数据 传输 ， 而 这 些 数据 可 能 已 经 存在 某 些 节点 上 了 ， 只 不 过 因为 主机 的 开机 顺序 ， 稍 晚 了 一 点 而 已 。 


因此 我 们 建议 在 故障 恢复 的 时 候 ， 尤 其 是 站 点 故障 ， 站 点 中 的 所 有 证 点 应 该 同时 开机 联网 ， 以 避免 代价 高 昂 的 重新 同步 和 重 
新 配置 的 开销 。 其 背后 的 原因 是 ， 如 果 VSAN 的 所 有 市 点 差不多 同时 恢复 ， 束 只 需要 同步 那些 故障 友 生 开始 到 恢复 之 间 的 数据 。 
有 反之， 如果 在 站 操 恢 复 的 时 候 ， 节 扣 相 继 恢复 局 动 ， 那 么 会 有 多 得 多 的 数据 通过 跨 站 点 的 链 路 传 来 传 去 。 这 也 是 VMware 建 议 如 
果 友 生 了 全 站 故障 ，DRS 要 设置 成 部 分 自动 而 不 是 全 目 动 的 原因 ， 这 样 已 理 员 就 可 以 等 到 故障 站 点 完全 恢复 之 后 骨 迁 移 虚拟 机 ,， 
而 不 是 让 虚拟 机 根据 其 关联 性 规则 目 动迁 移 回 去 。 


8.7 小结 


VSAN 征 仲 群集 架构 可 以 在 不 需要 复杂 的 存储 配置 和 操作 的 情况 下 跨 2 个 地 点 部 署 和 迁移 工作 负载 。 不 仪 如 此 ， 束 VMware 


的 大 部 分 用 户 来 说 ， 在 对 双 数 据 中 心 产生 需求 的 时 候 ， 它 提供 了 一 个 相对 低 成 本 的 解决 方案 。 和 任何 染 构 设计 一 样 ， 它 也 有 不 同 
的 设计 和 运营 上 的 考量 。 要 获取 最 新 和 更 精确 的 信息 ， 请 参考 VMware 官 方 文档 。 


第 9 章 ”设计 VSAN 群 集 


本 章 将 手把手 地 带 着 你 遍历 一 次 设计 完美 的 VSAN 群 集 的 所 有 步骤 。 我 们 将 利用 本 书 各 章 中 提 到 的 知识 和 技巧 来 确保 设计 出 
的 VSAN 群 集 能 满足 你 的 技术 要 求 和 业务 需求 。 在 进行 各 种 练习 之 前 ， 我 们 想 要 强调 的 是 在 VMware 兼 容 性 指南 (VMware 
Compatibility Guide, VCG) 中 包含 了 一 个 预定 义 配置 的 列表 ， 叫 做 VSAN Ready Nodes。 在 做 设计 时 我 们 建议 从 
VSAN? ready node 开 始 ， 因 为 这 和 自己 选择 每 种 硬件 配件 组 六 自己 的 服务 器 相 比 更 不 太 会 遇 到 | 问题。 写作 本 书 时 , VMware 
兼容 性 指南 (http://vmwa.re/vsanhcl) 中 列 出 有 13 家 不 同 的 服务 器 厂商 。 


在 开始 设计 练习 之 前 ， 我 们 想 讨 论 一 下 VSAN 的 几 个 限制 。 不 过 在 这 之 前 ， 让 我 们 先 探讨 下 不 同 的 vsan ready node 配 置 。 


9.1 ready nodet Æ 


当 VSAN 6.1 友 布 时 ，ready node 项 目 也 被 彻底 重新 修订 过 。 旧 的 “高 -中 - 低 ” 配 的 组 合 被 取消 了 ， 取 而 代 之 的 是 一 个 扩展 
的 配置 组 合 与 列表 。 表 9-1 列 出 的 这 些 ready node 配 置 是 写作 本 书 时 VMware 兼容 性 列表 的 一 部 分 ， 其 中 给 出 了 每 个 型 号 的 不 同 
配置 项 。 在 表 中 ，HY 开 头 的 型 号 是 混合 配置 的 (HYbrid) ， 而 AF 开 头 的 则 代表 了 全 闪存 配置 (All Flash) 。 


表 9-1 Virtual SAN Ready Node 型 号 


us STRENNA 


( 5E) 


-— 


型 号 存储 容量 每 节点 虚拟 机 数 
HY-8 2x 12 核 /348GB 最 多 可 达 100 
AF-8 2x 12 Ei / 348GB 最 多 可 达 120 


在 ready node 项 目的 过 去 版 本 中 ，HY-2、HY-6 和 和 HY-8 已 经 存在 了 ， 不 过 如 前 所 述 ， 它 们 被 称 为 低 配 、 中 配 和 高 配 。 HY- 
4、AF-6 和 AF-8 是 VSAN 6.1 引 入 的 ， 而 AF-4 则 是 VSAN6.2 引 入 的 。 特 别 加 入 的 HY-4 是 为 了 填补 低 配 (HY-2) 和 中 配 (HY-6) 
之 间 的 鸿沟 ， 根 据 我 们 的 经 验 ， 这 个 是 大 多 数 客 户 初次 实施 混合 配置 VSAN 时 和 希望 的 配置 。 


当知 道 了 所 需 的 计算 资源 和 存储 容量 的 总 量 ， 通 过 VMware 兼容 列表 就 可 以 很 容易 (从 偏爱 的 厂商 那里 ) 决定 哪个 型 号 的 


ready node 是 最 接近 的 匹配 型 号 了 。 在 图 9-1 中 ， 我 们 已 经 选择 了 ready node 必 须 支 持 的 VSAN 版 本 ESXi 6.0 Update1， 还 选 
择 了 富士 通 作为 债 爱 的 品牌 ， 以 及 每 台 主 机 8TB 人 存储 层 的 钊 容量 。 如 图 所 示 ，HY-6 和 AF-6 被 显示 为 候选 的 匹配 型 号 。 
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图 9-1 基于 所 选 存储 容量 的 Ready Node 配 置 


9.2 ”容量 限制 


和 其 他 系统 一 样 ， 在 进行 环境 设计 的 时 候 ，VSAN 也 有 一 些 需要 考量 的 限制 条 件 。 其 中 一 些 很 简单 直接 ， 另 外 一 些 则 不 那么 
明显 。 以 下 概要 询 出 了 VSAN 6.2 的 上 限 值 : 


: 每 个 群集 最 多 64 台 主机 

“ 每 人 台 主 机 最 多 200 个 虚拟 机 
- 每 个 群集 最 多 6400 台 虚拟 机 
. 最 多 5 个 磁盘 组 

- 每 个 磁盘 组 最 多 7 块 磁盘 


C 每 个 磁盘 组 最 多 1 个 缓存 设备 


` 每 台 主 机 最 多 9000 个 组 件 


有 人 或 许 会 想 原 来 在 这 个 列表 中 的 “VSAN 数 据 存储 上 受 vSphere HA 保护 的 虚拟 机 的 最 大 数量 ”上 哪里 去 了 。 对 于 每 个 数 
据 存 储 的 “power-on list” 上 可 以 跟 路 的 虚拟 机 数量 ,，vSphere HA 原来 是 有 上 限 的 。 但 由 于 像 VSAN 这 样 的 解决 方案 的 出 现 ， 
单个 数据 存储 会 存 有 数 干 个 虚拟 机 ， 为 了 适应 这 种 变化 ，vSphere HA 的 设计 也 做 出 了 调整 ， 因 此 限制 现在 被 取消 了 。 这 个 文件 
现在 不 再 有 任何 形式 的 限制 ， 因 此 每 个 数据 存储 上 受 vSphere HA 保护 的 虚拟 机 的 最 大 数量 等 于 数据 存储 上 的 虚拟 机 最 大 数量 。 


如 前 所 述 ， 其 中 大 多 数 很 容易 理解 ， 其 中 有 2 点 需要 进一步 解释 : 
` 群集 中 主机 的 最 大 数量 
- 组 件 的 最 大 数量 


尽管 每 个 群集 64 人 台 主 机 是 个 硬 限制 ， 我 们 还 未 曾 听 说 任何 一 个 客户 全 到 这 个 极限 。 在 笔者 过 去 和 客户 所 有 的 交谈 中 ， 我 们 
通 单 都 会 建议 群集 的 边界 应 该 融 是 故障 域 的 边界 。 大 多 数 客户 的 群集 中 的 主机 都 在 3~24 人 台 之 间 ， 最 单 见 的 是 8 主机 群集 和 12 主 
机 群集 。 值 得 一 提 的 是 ， 要 把 群集 中 主机 的 数量 从 32 人 台 提 高 到 64 人 台 ， 有 一 个 高 级 设置 选项 必须 在 群集 中 的 每 一 人 台 ESXi 主 机 上 配 
置 ， 这 个 选项 默认 是 Disabled (不 局 用 ) 。 为 了 扩大 最 大 主机 数 到 64 台 ， 每 增加 一 人 台 主 机 VSAN 融 需要 额外 消耗 大 约 200MB 内 
仔 。 注 意 ， 要 使 该 选项 生效 必须 重 局 主机 。 更 多 细节 请 参考 VMware 知识 库 文 档 2110081 
一 一 http://kb.vmware.com/kb/2110081。 简 而 言 之 ， 你 必须 在 群集 中 每 台 主机 上 通过 UI 或 命令 行 来 进行 这 些 高 级 设置 : 


esxcli system settings advanced list -o /CMMDS/gotoll 
esxcli system settings advanced set -o /Net/TcpipHeapMax -i 1024 
esxcli system settings advanced set -o /CMMDS/clientLimit 65 


第 2 个 值得 讨论 的 限制 是 组 件 的 最 大 数量 。VSAN 最 初 的 友 布 版 本 中 组 件 的 最 大 数量 是 每 台 主 机 3000 个 。 上 自 VSAN 6.0 起 被 增 
加 到 了 9000 个 ， 并 在 VSAN 6.1 和 VSAN 6.2 中 继续 采用 这 一 数值 。 不 同类 型 的 对 象 在 VSAN 数 据 人 存储 中 可 能 会 含有 一 个 或 多 个 组 
件 : 


- 虚拟 机 名 字 空 间 
. 虚拟 机 交换 文件 
- 虚拟 机 磁盘 

- 虚拟 磁盘 快照 
` 快照 内 存 

- 见证 


写 无 疑问 ， 本 书 读 到 这 里 你 已 经 很 清楚 虚拟 机 会 拥有 一 个 名 字 空 间 、 一 个 交换 文件 并 且 通 党 有 一 个 磁盘 。 很 重要 的 一 点 是 ， 
理解 允许 的 故障 数 这 个 设置 非常 重要 ， 它 会 影响 组 件 的 数量 。 配 置 的 FTT 的 值 越 大 ， 意 味 着 拥有 的 对 象 的 组 件 会 越 多 。 也 区 是 
说 ， 当 配置 FTT 为 1 且 容 错 方 法 为 RAID-1 时 ， 意 味 痢 磁盘 对 象 将 有 2 个 镜像 ( 换 而 言 之 2 个 组 件 ) ， 且 通 弟 会 有 1 个 见证 ， 因 此 共 
有 3 个 组 件 。 对 于 条 这 宽 度 也 是 同样 。 如 果 它 被 增 大 到 超过 1 的 数字 ， 组 件数 量 也 会 增加 。 因 此 ， 如 果 一 个 虚拟 机 磁盘 

(VMDK) 对 象 家 条 市 化 分 折 到 2 个 磁盘 上 ， 你 将 具有 2 个 组 件 。 对 于 RAID-5， 一 个 对 象 会 有 4 个 组 件 ， 而 一 个 RAID-6 对 和 象 则 有 
6 个 组 件 。 


除 此 之 外 ， 一 个 组 件 的 最 大 尺寸 是 255GB， 这 意味 着 如 果 你 有 一 个 500GB 的 虚拟 机 磁盘 对 象 ， 这 个 对 象 会 被 配置 成 1 个 
255GB 的 组 件 和 1 个 245GB 的 组 件 。 这 在 进行 容量 配置 和 扩容 决策 的 时 候 非常 重要 。 


话 虽 如 此 ，VSAN 6.0 已 经 把 组 件数 上 限 从 3000 增 加 到 了 9000， 因 此 我 们 从 来 没有 遇 到 过 客户 提起 有 组 件数 到 达 上 限 的 问 
题 ， 甚 至 他 们 根本 没有 感 党 到 有 这 样 的 限制 存在 。 


9.3 EFASE 


从 VSAN 的 第 一 个 版 本 开始 ，VMware 束 建议 缓存 和 容量 的 比率 为 10% (未 考虑 FTT 的 情况 下 ) 。 这 是 什么 意思 呢 ? 
让 我 们 用 一 个 简短 的 例子 来 解释 这 个 变化 。 假 设 我 们 的 环境 如 下 : 

: 100 台 虚拟 机 

. 每 个 虚拟 机 50GB 

- FTT=1 

容错 方法 为 RAID-1 


这 里 的 算法 其 实 很 简单 ， 所 需 的 容量 层 和 缓 仔 层 的 空间 分 别 计算 如 下 暂时 先 不 计算 任何 开销 和 闲置 空间 ) 。 


[i 


. 容量 层 : 100 台 虚拟 机 X50GBX2 副 本 =10000GB 
. 缓存 层 : 100 台 虚拟 机 X50GB=5000GB X10%=500GB 


这 就 是 整个 群集 的 所 有 需求 了 。 人 在 4 证 点 群集 的 情况 下 ， 这 意味 着 每 台 主 机 所 需 的 缓存 容量 只 有 125GB 而 容量 层 空 间 将 需 
2500GB, 


94 性 能 设计 


性 能 当然 是 设计 一 个 VSAN 基 础 染 构 的 重要 关注 点 。 在 接 下 来 要 摘 述 的 各 种 场景 中 ， 我 们 的 关注 点 放 在 容量 设计 以 及 部 分 性 
能 方面 。 性 能 考量 主要 在 涉及 混合 配置 时 考虑 。 不 过 我 们 友 现 全 闪存 配 置 正在 被 慢 慢 接受 。 闪 存 价格 已 大 幅 下 降 (并 仍 会 继续 下 
降 ) 。 随 着 VSAN 6.2 市 来 的 RAID 5/6 以 及 去 重 和 压缩 的 新 特性 ， 我 们 党 得 从 忌 拥有 成 本 的 角度 来 看 ， 全 闪存 配置 对 于 大 多 数 用 
尸 来 说 将 会 是 更 合适 的 选择 。 


你 应 该 已 经 在 本 书 中 学 到 ，VSAN 严 重 依 靠 内 存 设备 来 提供 所 需 的 性 能 。 闪 存在 混合 配置 中 同时 用 作 读 缓冲 和 写 缓存 ， 在 全 
内 存 配置 中 只 用 作 写 缓存 。 因 此 ， 不 正确 地 配置 内 存 的 容量 可 能 会 对 工作 负载 造成 严重 的 性 能 影响 。 例 如 ， 对 于 30 台 虚拟 机 ,， 
是 30GB 的 读 缓冲 还 是 150GB 的 读 缓 冲 会 产生 巨大 的 性 能 差异 。 在 混合 配置 情况 下 ， 残 减少 对 磁盘 的 访问 量 来 况 ， 给 每 台 虚 拟 机 
配置 1GB 还 是 5GB 的 缓存 的 确 会 产生 很 大 的 不 同 。 不 过 ， 同 样 的 情况 也 适用 于 写 缓存 。 具 有 600GB 用 于 缓存 回 写 数 据 的 写 缓存 和 
仅仅 只 有 100GB 对 回 写 的 频率 会 产生 很 大 的 不 同 ， 最 终 会 对 缓 仓 层 的 耐久 度 产 生 巨 大 的 影响 。 对 虚拟 机 性 能 来 说 ， 不 仅 仪 是 内 
存 设备 的 容量 有 关系 ,闪存 的 类 型 也 有 关系 。 


而 言 之 ， 所 有 这 些 提 到 过 的 最 佳 实践 都 只 是 推荐 做 法 ， 它 们 对 于 大 多 数 环境 都 适用 ， 但 是 你 的 环境 可 能 有 所 不 同 ， 可 能 会 
有 更 多 苟 刻 的 应 用 程序 。 在 集群 上 运行 着 的 应 用 程序 的 总 活动 (热点) 数据 才 是 关键 所 在 。 现 实 中 ， 你 必须 要 自行 对 此 做 出 估 
算 ， 或 利用 免费 的 VSAN 评 估 工 具 (可 以 在 http://vmwa.re/vsanass 上 填写 一 个 简单 的 在 线 表 单 来 免费 获取 ) 进行 估算 。 估 算 的 
结果 会 告诉 你 ， 环 境 中 真实 的 活动 内 存 集 是 多 少 ， 以 及 哪些 虚拟 机 建议 采用 VSAN。 你 也 可 以 基于 全 闪存 配置 或 混合 配置 的 
VSAN 进 行 不 同 的 分 析 ， 如 图 9-2 所 示 。 
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图 9-2 VSAN 评 估 工 具 

第 2 章 曾 经 列 出 了 闪存 设备 的 分 级 ，VMware 用 这 种 分 级 来 对 此 类 设备 可 以 达到 何 种 程度 的 性 能 表现 提供 一 个 参考 。 
VMware 兼 容 性 指南 中 标 出 的 指定 闪存 设备 等 级 列表 如 下 : 

- Class A: 每 秒 2500~5000 次 写 操作 (列表 中 已 删除 ) 

.Class B: 每 秒 5000~10000 次 写 操 作 

- Class C: 每 秒 10000~20000 次 写 操 作 

: Class D: 每 秒 20000~30000 次 写 操 作 

: Class E: 每 秒 30000+ 次 写 操作 
为 了 演示 不 同 设备 之 间 的 区 别 ， 我 们 将 某 些 设备 的 理论 性 能 表现 举例 如 下 : 


: Intel P3700, 800GB, ，90K 随 机 写 IOPS ，460Kk 随 机 读 IOPS (使 用 4KB 大 小 的 数据 块 ) 
(htt ji >: / /WWW.l ntel. com/content/ WWW /us en j solid-state-drive S, intel-s sd-dcfami| y-for-p cie.htm ) 





- Intel S3610，1.2TB，28Kk 随 机 写 IOPS，84k 随 机 读 IOPS (使 用 4KB 大 小 的 数据 块 ) 


(http://www.intel.com/content/www/us/en/solid-state-drives/solid-statedrives-dc-s3610-series.html) 


- Micron P320h，700GB，145k 随 机 写 IOPS，415k 随 机 读 IOPS (使 用 4KB 大 小 的 数据 块 ) 


(https:/ /www.micron.com/products/solid-state-storage /product-lines/p320h#/) 


: Micron M500DC, 800GB, ，24k 随 机 写 IOPS ，65k 随 机 读 IOPS 〈 使 用 4KB 大 小 的 数据 块 ) 


(https:/ /www.micron.com/products/solid-state-storage /product-lines/mb500dc) 


如 果 你 在 4 台 主 机 上 运行 了 400 台 虚拟 机 ， 使 用 Intel P3700 NVMe 设 备 比 起 使 用 常规 的 Intel S3610 设 备 可 能 会 有 非常 大 的 
性 能 差异 。 那 么 想象 一 下 在 16 台 主机 上 运行 2000 台 虚拟 机 会 怎样 ! 当然 ， 这 二 者 之 间 的 价格 差异 也 同样 显著 ,但 是 这 的 确 是 一 
个 需要 重视 的 考虑 因素 。 设 备 是 用 于 缓 仔 还 是 用 于 容量 也 会 有 所 不 同 。 一 般 来 说 ， 高 性 能 和 写 优 化 的 驱动 器 ， 例 如 Intel P3700 
和 Micron P420m 可 用 于 缓存 层 ， 而 诸如 Intel S3610 和 Micron M500DC 这 种 则 会 被 用 于 容量 层 。 


磁盘 控制 器 的 影响 


一 个 常 被 问 起 的 问题 是 ,磁盘 控 制 器 队列 深度 对 VSAN 环 境 的 性 能 会 市 来 怎样 的 影响 。 考 虑 一 下 从 虚拟 机 逐 层 向 下 直到 设备 
本 身 的 不 同 层面 的 各 种 队列 ， 可 能 用 如 图 9-3 所 示 的 图 解 来 摘 述 最 能 说明 问题 。 


图 9-3 显 示 了 6 个 不 同 层次 的 队列 形式 ， 当 然 现 实 中 可 能 会 有 更 多 种 类 的 缓 仔 和 队列 (不 过 我 们 尽 可 能 保持 合理 的 简化 并 解 
释 潜 在 的 洽 须 会 友 生 的 层面 ) 。 在 客 尸 操作 系统 内 ，vSCSI 适 配器 具有 一 个 队列 。 下 一 个 层面 是 VSAN， 也 有 其 自己 的 队列 和 |/O 
管理 。 接 下 去 ，1/O 数 据 流 会 通过 多 路 径 层 到 达 主 机 上 的 各 种 不 同 设备 ， 再 下 面 一 个 层面 中 ， 磁 盘 控 制 器 也 有 一 个 队列 ， 而 且 
(根据 使 用 的 控制 器 类 型 ) 有 可 能 每 个 磁盘 控制 器 端口 上 各 仓 在 一 个 队 询 。 最 后 而 且 也 是 很 重要 的 一 点 ， 每 个 设备 〈 也 融 是 磁 
盘 ) 会 有 一 个 队列 。 


VMkernel/ VSAN 








图 9-3 不同 层面 的 排队 


仔细 观察 图 9-3， 你 会 太 现 很 多 虚拟 机 的 MO 将 流 过 同一 个 磁盘 控制 器 ， 并 且 IMMO 会 帮 往 或 来 自 一 个 或 多 个 设备 OB ARA 
个 设备 ) 。 这 可 能 会 是 第 一 个 真正 的 潜在 瓶 贷 点 一 一 磁盘 控制 器 的 队列 深度 。 


假设 有 4 个 SATA 磁 盘 ， 每 个 磁盘 的 队列 深度 是 32， 这 意味 着 合 在 一 起 需要 并 行 处 理 128 个 MO。 那 么 如 果 磁 盘 控 制 器 只 能 处 
理 64 个 请 求 会 怎样 ? 这 将 导致 64 个 |/O 被 保留 在 VMkernel/VSAN 上 。 如 你 所 见 ， 如 果 能 保证 磁盘 控制 器 的 队列 能 保存 的 数量 可 
以 与 设备 队列 能 保存 的 数量 忌 数 相同 (或 更 多 ) 束 太 好 了 ， 这 样 VSAN 束 可 以 在 不 受 磁 盘 控 制 器 限制 的 情况 下 进行 队列 整形 。 


谈 起 磁盘 控制 器 ， 不 同 生产 制造 商 产 品 之 间 队 列 最 大 深度 的 区 别 非 常 巨大 ， 甚 至 同一 制造 商 的 不 同型 号 之 间 也 有 明显 差异 。 
表 9-2 列 出 了 5 种 流行 的 磁盘 控制 器 及 其 队列 深度 ， 这 个 示例 只 是 为 了 说 明 没 有 经 过 调研 就 做 出 决定 会 错 得 多 么 离谱 。 


表 9-2 ”磁盘 控制 器 队列 深度 


对 于 VSAN， 建 议 要 保证 磁盘 控制 器 的 队列 深度 至 少 达 到 256。 请 注意 所 有 VSAN 兼 容 性 列表 (VCG) 中 列 出 的 设备 都 具有 
大 于 256 的 队列 深度 ， 因 为 这 是 它们 能 入 选 的 必要 条 件 之 一 。 现 在 磁盘 控制 器 只 是 公式 的 一 部 分 ， 因 为 设备 队列 占据 了 另 一 部 
分 。 我 们 曾经 研究 过 各 种 不 同 的 控制 器 和 设备 ， 下 面 是 一 些 典 型 的 标准 : 


mpt2sas raid queue depth: int 

Max RAID Device Queue Depth (default-128) 
mpt2sas sata queue depth: int 

Max SATA Device Queue Depth (default-32) 
mpt2sas sas queue depth: int 

Max SAS Device Queue Depth (default-z254) 


最 重要 的 部 分 我 们 特地 用 阴影 强调 。 你 可 以 看 到 ， 根 据 所 用 设备 类 型 的 不 同 ， 控 制 器 具有 3 种 不 同 的 队列 深度 。 创 建 的 是 
RAID 配 置 时 ， 队 列 深度 是 128;， 而 当 直 连 一 个 SAS 驱 动 器 的 时 候 〈 单 称 为 直通 ) ， 队 列 深 度 是 254。 最 常见 的 SATA 设 备 默 认 队 
列 深 度 只 有 32， 可 以 预见 到 ， 这 又 会 是 一 个 瓶颈 点 。 这 也 是 VMware 的 VSAN 兼 容 性 列表 中 只 有 很 少数 量 的 SATA 驱 动 器 的 原 
因 。 在 vsphere 5.5 Update 3 和 之 前 的 版 本 中 仍然 有 少量 设备 列 出 ， 但 是 在 VSAN 6.0 友 布 的 时 候 它们 都 被 移 了 除了。 不过， 笠 运 
的 是 ，SATA 较 浅 的 队列 深度 (以 及 VCG 中 缺少 SATA 驱 动 器 ) 的 问题 可 以 通过 蔡 换 成 NL-SAS 驱 动 器 ( 近 绪 串 行 连接 SCS1) 来 解 
决 ， 这 种 驱动 器 的 队列 深度 要 大 得 多 。 


可 以 通过 使 用 esxcfg-info-slgrep"==+SCSI Interface"-A 18 命 令 行 来 验证 控制 器 的 队列 深度 ， 这 条 命令 会 显示 出 SCSI 接 
口 的 大 量 信息 ， 其 中 也 包括 队列 深度 ， 如 下 面 的 命令 输出 所 示 (为 了 保证 可 读 性 我 们 只 截取 了 部 分 ) 。 


\==+SCSI Interface 


| «NATUS. uisus x *EqES BEA RE ELEGOEN £ xou XR RACE EUARLK MEE Aux vmhba0 
[====-JEL VO sarr nre a A E OS lsi mr3 
| DE a caecos od JR RC RE EXC ea 895 


注意 ， 甚 至 是 所 用 的 固件 和 驱动 程序 也 会 对 控制 器 和 设备 的 队列 深度 造成 影响 。 我 们 强烈 建议 使 用 VSAN 兼 容 性 指南 
(http://vmwa.ra/vsanhcl) 中 列 出 的 驱动 程序 。 如 图 9-4 所 示 ， 这 是 某 个 特定 磁盘 控制 器 的 详情 页 面 。 有 了 时候 ， 你 会 在 驱动 程 
序 更 新 后 看 见 队列 深度 从 25 增 加 到 600。 可 以 想象 ， 这 将 对 性 能 造成 多 大 的 影响 啊 ! 


此 时 我 们 通常 会 遇 到 这 样 的 问题 : NL-SAS 和 SATA 驱 动 器 对 比 是 怎样 的 ?因为 NL-SAS 本 质 上 只 是 使 用 了 SAS 连 接 器 的 SATA 
驱动 器 ， 它 的 优势 在 哪里 ? NL-SAS 驱 动 器 有 以 下 优点 : 


“ 双 端 口 ， 可 用 于 宛 余 路 径 

` 能 连接 一 个 设备 到 多 台电 脑 

e 支持 完整 的 SCSI 命 令 集 

- 比 SATA 更 快 的 接口 (多 达 20%) , ÆSTP ( 串 行 ATA 隧 道 协 议 ) 开销 
` 更 深 的 命令 行 队列 (深度 ) 


从 成 本 角度 来 看 ， 大 多 数 生产 商 的 NL-SAS 和 SATA 之 间 的 价差 几乎 可 以 忽略 。 写 作 本 书 时 ，4TB 驱 动 器 在 不 同 电 商 网 站 上 的 
平均 价差 是 30 美 元 。 考 虑 到 其 带 来 的 实际 好 处 ， 我 们 强烈 推荐 为 VSAN 选 购 NL-SAS 而 不 是 SATA。 


Home > Resources > Compatibility Guides 
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< Backto Search Results 


Model Details 
Model PERC H730 Adapter 
Device Type: SAS-RAID DID: 005d 
Brand Name: DELL SVID: 1028 
SSID: 1f43 


VID: 1000 Queue 895 
Depth: 


rss feed EJ 


Model Release Details Expand All | Collapse All 


Release Device Driver(s) Firmware Version Driver Type Virtual SAN Type Features 


(4j ESXi 6.0 U1 Isi mr3 version 6.606.12.00- 25.3.0.0016 async All Flash View 
1OEM.600.0.0.2159203 Hybrid 


Feature Category Features 
Virtual SAN Compatible All Flash,Hybrid,Pass-Through 


Footnotes : Download driver from https://my.vmware.com/web/vmware/details?downloadGroup-zDT-ESXI60-LSI-LSI-MR3-66061200-1OEM&productld2491 
Virtual SAN 6.0 can only support internal drives and cannot be used with the external capabilities of this controller. 
To avoid a known issue with this controller and ESXi 6.0 please use firmware version 25.3.0.0016 and "Isi-mr3 version 6.606.120EM" driver. Then for 
backplane expander firmware = 3.03 or for non-expander storage backplane firmware = 2.23. Lastly, confirm SSD models and firmware versions with 
Dell. 





图 9-4 设备 驱动 程序 详情 


读 完 本 节 ， 你 应 该 很 清楚 对 于 VSAN 设 计 而 言 磁盘 控制 器 是 个 关键 组 件 ， 不 仅仅 是 磁盘 控制 器 本 身 ， 还 包括 固件 和 设备 驱动 
程序 ， 这 些 都 会 对 VSAN 的 性 能 带 来 很 大 的 影响 。 在 部 署 VSAN 的 时 候 ， 我 们 强烈 建议 你 确保 驱动 程序 的 版 本 是 VSAN 兼 容 性 列 
表 中 推荐 的 版 本 ,或 者 在 需要 的 时 候 升 级 到 最 新 版 本 。 要 做 到 这 个 ， 最 简单 的 方法 是 使 用 VSAN 运 行 状况 检查 ， 我 们 将 在 第 10 草 
介绍 。VSAN 运 行 状况 检查 (health check) 将 检查 磁盘 控制 器 和 驱动 器 的 文 持 能 


9.5 VSAN 的 性 能 


很 难 对 性 能 进行 预测 ， 因 为 工作 负载 各 不 相同 而 且 硬 件 组 合 也 各 式 各 样 ， 这 些 都 会 市 来 不 同 的 结果 。 企 VSAN 友 布 之 
后 ，VMware 公 布 了 多 个 性 能 测试 的 数据 : (http://blogs.vmware.com/vsphere/2014/03/supercharge-virtual-san- 
cluster-2-million-iops.html) 。 结 论 令 人 印象 深刻 。 但 是 请 注意 ， 这 仪 仪 只 是 开始 而 已 。 随 着 VSAN 6.1 的 友 布 ， 混 合 配置 的 容 
量 和 性 能 都 已 经 翻 倍 ， 达 到 了 每 群集 8 百 万 |OPS。 全 闪存 配置 的 加 入 则 彻底 改变 了 游戏 规则 ， 这 使 得 VSAN 可 以 达到 每 个 磁盘 组 
45K IOPs 的 性 能 ， 而 且 请 注意 ， 每 台 主 机 可 以 有 5 个 磁盘 组 哦 ! 不 仅 如 此 ， 它 还 市 来 了 亚 量 秒 级 的 延迟 性 能 。 (为 了 完整 起 见 我 
要 说 明 的 是 ， 理 论 上 用 全 闪存 配置 来 设计 一 个 亚 之 秒 级 延迟 和 且 可 以 交付 1600 万 IOPS 性 能 的 VSAN 和 群集 是 完全 可 能 的 。) 


请 注意 ， 这 些 性 能 测试 数值 不 应 该 用 作 你 的 环境 能 保证 实现 的 性 能 指标 ， 它 们 仪 仅 只 是 理论 测试 ， 不 需要 (也 基本 上 不 可 
能 ) 和 你 自己 的 环境 中 可 以 观察 到 的 |/O 模 式 一 样 。 不 管 怎 样 ， 它 的 确证 明了 VSAN 有 能 力 交 付 一 个 高 性 能 的 环境 。 写 作 本 书 的 
时 候 ， 最 新 的 可 以 获得 的 性 能 测试 文档 是 基于 VSAN 6.0 的 ， 你 可 以 在 这 里 找 
到 : http://www.vmware.com/files/pdf/products/vsan/V Mware-Virtual-San6-Scalability-Performance-Paper.pdf。 不 过 
我 们 强烈 建议 你 去 搜索 一 下 最 新 的 版 本 ， 因 为 我 们 很 肯定 随 着 VSAN 6.2 的 友 布 ， 性 能 测试 文档 也 会 随 着 更 新 。 


在 阅读 此 类 文章 的 时 候 ， 有 一 件 事 情 需 要 特别 提出 ， 所 有 这 些 可 以 公开 获得 的 VMware 做 出 的 性 能 测试 和 参考 架构 都 是 基于 


万 兆 以 太 网 络 的 。 在 我 们 设计 的 场景 中 ， 万 兆 以 太 网 是 我 们 的 黄金 标准 ， 因 为 尼 是 VMware 强烈 建议 的 ， 能 增加 吞吐 量 并 降低 延 
迟 。 唯 一 没有 及 用 的 情况 是 ROBO (远程 办 公 室 / 分 支 办 公 室 ) ， 这 是 2 节操 VSAN 配 置 ， 通 党 使 用 干 兆 以 太 网 ， 因 为 一 般 来 说 运 
行 其 上 的 虚拟 机 数量 比较 少 (最 多 20) 。 在 本 书 第 3 章 中 介绍 了 关于 网 络 的 不 同 配置 选项 ， 包 括 使 用 网 络 IO 控制 (NIOC) 。 


现在 ， 让 我 们 来 看 一 看 某 些 性 能 方面 的 制约 因素 ， 并 从 容量 的 角度 来 探讨 一 下 如 何 设计 VSAN 和 群集 。 


9.6 ”设计 和 容量 规划 工具 


在 开始 第 一 个 设计 之 前 ， 我 们 想 告 诉 你 一 些 可 以 帮助 进行 VSAN 基 础 架构 设计 和 容量 规划 的 工具 。 我 们 偏爱 的 工具 是 VSAN 
TCO and Sizing Calculator (VSAN 总 拥有 成 本 和 容量 规划 计算 器 ) 。 这 个 工具 已 经 友 布 了 有 一 阵子 了 ， 可 以 
在 https:///vsantco.vmware.com/ 找 到 。 其 用 户 界 面 很 简单 直接 ， 如 图 9-5 所 示 。 


VMware 的 这 个 官方 的 VSAN 容 量规 划 计 算 器 使 你 可 以 根据 特定 的 参数 来 进行 设计 ， 这 些 参 数列 举 如 下 : 
:虚拟 机 的 数量 
“ 虚拟 机 磁盘 《VMDK) 的 大 小 
- VMDK 的 数量 
快照 的 数量 
: 读 写 I/O 比 


我 们 强烈 建议 你 使 用 这 些 工具 来 验证 目 己 的 设计 和 决策 ， 以 此 来 保证 工作 负载 的 最 佳 性 能 和 可 用 性 。 而 其 中 更 推荐 的 
是 https://vsantco.vmware.com， 因 为 它 是 VMware 官 方 支持 的 容量 规划 计算 器 。 


VMWare virtual SAN TCO and Sizing Calculator 


Sizing Inputs Sizing Results TCO Inputs TCO Results 


Welcome to Virtual SAN TCO Calculator. To begin using the calculator please enter sizing requirements below. To save or 
download your results, please create an account or Login. 


Virtual Machines & Environment Sizing © Ready Node Configuration © 


Ready Node Configuration 


Environment Requirements 


Virtualization Platform Server Virtualization $ 


Select £VMs and Usable Capacity Required J-Add Additional VM Profile 


?VMs 100 
f VMs/Host 20 
Per-VM profiling: 

ZVMDKs 

VMDK Size (GB) 

vCPU 

vMem (GB) 

FTT 

#Snapshots 


%Read 


Important Note: if you are sizing for a stretched cluster solution, use half the amount of VMs and 
usable capacity that this cluster can typically handle - this will insure that in a case of a site failure 


you'll have enough resources to run all the workloads with half the cluster available 





图 9-5 ”官方 的 VMware VSAN 容 量规 划 计 算 器 


9.7 场景 1: 服务 器 虚拟 化 - 意 合 

在 设计 VSAN 环 境 时 ， 充 分 理解 虚拟 机 的 需求 是 非常 重要 的 。 这 里 显示 的 不 同 的 例子 会 告诉 你 不 同 的 决策 会 市 来 怎样 的 后 
果 。 任 何 设计 都 是 从 收集 需求 开始 的 。 在 这 个 例子 中 ， 我 们 收集 到 的 参数 如 下 基于 虚构 的 客户 提供 的 各 种 平均 值 ) : 

| 平均 每 台 虚 拟 机 1.5 个 vCPU 

. 平均 每 台 虚 拟 机 5GB 内 存 

平均 每 台 虚 拟 机 70GB 磁 盘 空 间 

- 每 台 虚 拟 机 预期 的 磁盘 消耗 为 70% 

容错 方法 : 性 能 (RAID-1) 


| 允许 的 故障 数 (FTT) : 1 


这 是 为 一 家 服务 提供 商 从 零 开 始 搭建 的 一 个 环境 ， 规 划 的 每 个 群集 中 运行 的 虚拟 机 数量 为 1000 台 。 尽 管 VSAN 和 群集 有 能 力 运 
行 超过 1000 人 台 虚 拟 机 ， 在 此 我 们 想 保 持 一 个 较 小 的 容 独 域 (failure domain) 并 在 需要 的 时 候 提 供 群 集 横向 扩展 的 能 力 。 


这 意味 着 我 们 的 VSAN 基 础 架构 应 该 能 提供 : 
- 1000 X 1.5vCPU=1500vCPU 
- 1000 X 5GB-5000GB P Zr 
- 1000 x 70% X 70GB-49000 GB 24 2 sit ze Ù] 
我 们 会 考虑 采用 8 : 1 的 VCPU/ 内 核 比 ， 考 虑 到 总 共 需 要 1200 个 vCPU， 除 以 8， 结 果 是 共 需 要 188 个 处 理 器 内 核 。 


再 来 深入 一 后 地 看 看 存储 需求 。 在 开始 计算 之 前 ,我 们 需要 知道 这 些 虚 拟 机 需要 何 种 程度 的 弹性 。 在 我 们 的 计算 中 ， 将 容错 
万 法 设 为 RAID-1 (镜像 ) 并 将 允许 的 故障 数 设 置 为 1， 我 们 还 增加 了 30% 的 额外 磁盘 空间 来 保存 元 数据 (metadata) 和 临时 快 
照 。 如 果 你 的 环境 中 需要 为 快照 提供 更 多 的 空间 ， 在 进行 计算 练习 之 前 不 要 和 起 记 将 这 个 因子 考虑 进去 。 


在 将 以 上 因素 考虑 进去 之 后 ， 公 式 看 上 去 是 这 个 样子 的 : 
(虚拟 机 数量 X 磁盘 平 均 容量 + 虚拟 机 数量 X 内 存 平均 容量 ) X (FTT+1) +30% 余 量 


这 里 将 内 存 平 均 容 量 计算 在 内 是 因为 每 从 虚拟 机 会 在 磁盘 上 创建 一 个 大 小 等 同 于 内 存 配置 容量 的 交换 文件 。 使 用 前 面 提 到 的 
业界 标准 的 平均 值 ， 结 果 是 这 样 的 : 
(1000X49+1000X5) X2= (49000+5000) X2=10800GB+30% 余 量 =140400GB 


将 结果 除 以 1024 再 进位 取 整 ， 总 共 需 要 的 仓储 空间 是 138TB。 现 在 我 们 知道 将 需要 138TB 磁 盘 空 间 、5000GB 内 存 和 188 个 
处 理 器 内 核 ， 接 着 让 我 们 来 研究 一 下 如 何 配 置 硬件 。 


决定 主机 配置 


我 们 将 从 2U 主 机 这 种 最 常见 的 机 型 开始 研究 。 在 这 个 例子 中 ， 我 们 决定 选用 Dell R730XD， 其 外 观 如 图 9-6 所 示 。 这 人 台 服 务 
器 已 经 对 存储 空间 进行 了 优化 ， 可 以 在 2U 的 机 身 内 支持 多 达 24 个 磁盘 设备 (包括 4 个 NVMe 设 备 ) 。Dell R730XD 是 一 台 汉 处 理 
器 服务 器 ， 最 多 文 持 1.5TB 内 仔 ， 两 个 处 理 器 插 槽 上 都 可 以 配备 任何 4 核 到 18 核 的 CPU。 天 于 Dell R720XD 的 更 多 细节 可 到 官方 
网 站 获得 : http:;//www.dell.com/us/business/p/poweredge-r730xd/pd. 





图 9-6 Dell R730XD 服 务 器 


我 们 环境 的 必要 条 件 如 下 : 


“(根据 VSAN 的 要 求 ) 最 少 3 台 主机 

- 138TB 的 磁盘 总 原始 容量 

- 188 个 CPU 内 核 

- 5000GB 内 存 

` 在 故障 情况 下 最 小 的 过 量 配置 (高 可 用 要 求 N+1) 


如 前 所 述 ，Dell 730XD 可 配置 18 核 处 理 器 ， 每 台 服 务 器 2 个 CPU 的 情况 下 最 多 可 以 配置 36 个 处 理 器 内 核 。 这 意味 着 从 CPU 
的 角度 考虑 ， 我 们 大 致 需要 6 台 主 机 。 然 而 ， 因 为 考虑 到 有 故障 情况 下 过 量 配 置 的 需求 ， 则 至 少 需要 配置 7 台 主 机 。 从 内 存 角度 
考虑 ， 每 台 主机 (采用 32GB 内 存 条 ) 可 以 提供 768GB 内 存 ， 考 虑 到 我 们 需要 5000GB 的 内 存 ， 将 需要 7 台 主 机 。 因 为 同时 也 要 考 
虑 故障 情况 下 过 量 配 置 和 最 优 的 内 存 配置 ， 我 们 决定 每 台 主 机 配置 912GB 内 存 ， 这 就 导致 群集 最 少 需要 10 台 主机 。 从 CPU 的 角 
度 来 看 ， 这 也 是 性 价 比 最 高 的 配置 ， 因 为 我 们 可 以 采用 比 顶 级 的 18 核 CPU 更 便宜 的 10 核 或 12 核 CPU。 


当然 ， 价 格 总 是 重要 因素 ， 我 们 强烈 建议 基于 CPU、 内 存 和 磁盘 配置 来 比较 价格 。 在 这 个 例子 中 ， 我 们 不 会 太 考 碟 价 格 因 
素 ， 因 为 计算 机 组 件 价格 变化 太 快 ， 当 我 们 完成 本 草 写 作 的 时 候 ， 可 能 束 已 经 需要 更 新 了 。 本 例 中 ， 我 们 从 CPU 和 内 存 的 角度 
出 友 得 出 10 台 主机 是 最 优 的 这 个 结论 。 我 们 会 根据 这 个 结果 来 进行 磁盘 配置 的 设计 。 


存储 的 容量 设计 略微 妙 。 让 我 们 来 看 一 下 有 哪些 不 同 的 方案 。 我 们 知道 忌 共 需 要 138TB 的 存储 ， 我 们 还 知道 从 计算 资源 的 角 
大 来 看 需要 10 台 主机 。 考 虑 到 我 们 可 以 选择 3.5? 英 寸 磁 盘 或 2.5 丈 寸 磁盘 ， 我 们 方案 中 的 10 台 主机 最 多 可 以 拥有 240 个 2.5 英 寸 驱 
动 器 插 模 或 120 个 3.5 贡 十 驱动 器 插 档 。 在 决定 磁盘 类 型 的 时 候 还 应 该 考虑 到 每 组 磁盘 (最 多 7 个 ) 需要 1 个 内存 设 备 。 


一 个 重要 的 考虑 因素 是 由 磁盘 和 闪存 设备 共同 提供 的 I|OPS 数 。 一 个 典型 的 3.5 英 寸 7200RPM 的 NL-SAS 驱 动 器 可 以 提供 大 概 
80IOPS， 而 一 块 2.5 英 寸 的 10K RPM 的 SAS 磁 盘 可 以 提供 1501IOPS。 请 注意 ， 某 些 情况 下 具有 更 多 碟 片 和 磁头 的 驱动 器 可 能 具有 
更 高 的 IOPS 数 ， 某 些 NL-SAS 驱 动 器 可 以 提供 高 达 225IOPS。 (IOPS 数 值 来 自 于 http://www.techrepublic.com/blog/the- 
enterprise-cloud/calculate-iops-in-a-storage-array/, ) 从 容量 的 角度 来 说 ，NL-SAS 磁 盘 的 沁 围 是 1TB 到 6TB， 而 现在 最 大 
的 SAS 磁 盘 也 只 有 1.2TB (至 少 对 VSAN 来 说 ) 。 我 们 知道 共 需 138TB， 让 我 们 来 速算 一 下 看 看 这 对 决策 会 有 怎样 的 潜在 影响 。 对 
SAS 和 和 NL-SAS 我 们 都 将 及 用 最 常见 的 磁盘 类 型 来 演示 其 潜在 的 影响 : 


. 138TB/4TB= 约 35 个 NL-SAS 磁 盘 =2800IOPS (JANL-SAS 24 & T 3k 43] p fie.) 
- 138TB/1.2TB= 约 115 个 SAS 磁 盘 =17250IOPS (从 SAS 磁 盘 可 获得 的 性 能 ) 


可 以 看 出 ， 这 2 种 极端 例子 的 结果 磊 异 巨大 。 尽 沪 VSAN 已 经 被 设计 成 利用 闪存 设备 作为 主要 的 性 能 来 源 ， 这 还 是 一 个 非常 
重要 的 设计 考虑 因素 ， 因 为 当 数 据 需 要 农 回 写 到 磁盘 上 时 或 当 读 缓冲 未 能 命中 而 数据 块 需要 从 磁盘 上 直接 读 取 时 ， 这 些 IOPS 仍 
然 会 被 用 上 。 在 这 个 例子 中 ， 我 们 决定 使 用 NL-SAS 磁 盘 ， 因 为 它们 的 性 价 比 更 高 而 且 性 能 可 以 通过 及 用 更 大 的 内 存 设备 来 弥 
fh. 

让 我 们 来 计算 一 下 ， 如 前 所 述 ， 在 10 台 主机 上 总 共 需 要 35 个 4TB 的 NL-SAS 磁 盘 ， 也 就 是 每 台 主 机 3.5 个 ， 四 舍 五 入 等 于 4。 


为 了 保证 我 们 的 VSAN 和 群集 能 提供 最 优 的 用 尸体 验 ， 根 据 经 验 ， 我 们 将 采用 虚拟 机 预期 消耗 磁盘 忌 容量 的 10% 来 作为 内 存 容 
量 。 在 我 们 的 例子 中 ， 我 们 最 多 会 有 1000 人 台 虚 拟 机 ， 这 些 虚 拟 机 拥有 总 共 70GB 的 虚拟 磁盘 空间 ， 其 中 我 们 预期 会 实际 消耗 70% 
的 空间 ， 根 据 推荐 值 计算 得 出 的 内 存 容量 如 下 : 


10%X (1000 台 虚拟 机 X (预期 消耗 70%X70GB 总 磁盘 空间 ) ) =4900GB 


考 碟 到 我 们 将 配置 10 台 主机 ， 这 意味 着 每 台 主 机 上 的 闪存 空间 需要 4900GB 除 以 10 约 等 于 490GB。 注 意 ， 在 我 们 的 配置 中 ， 
每 台 主 机 只 有 一 个 磁盘 组 ; 如 果 有 2 个 磁盘 组 的 话 就 需要 考虑 每 个 磁盘 组 都 必须 有 其 自己 的 闪存 设备 。 为 了 保证 可 以 补偿 容量 层 
较 低 的 |OPS， 我 们 决定 使 用 800GB 的 SSD， 额 外 提供 310GB 的 缓存 容量 。 


根据 VMware 兼容 性 指南 ， 就 DellI 的 配置 和 最 低 每 秒 20000 次 写 操作 的 性 能 要 求 (D 类 和 E 类 满足 要 求 ) ， 我 们 决定 从 下 列 闪 
存 设备 中 进行 选择 : 


800GB SSD SAS Mix Use 12Gbps 
800GB SSD SAS Read Intensive 12Gbps 
800GB SSD SATA Mix Use 6Gbps 
800GB SSD SATA Read intensive 6Gbps 
注意 有 时 候 价 格 差 异 会 很 大 ， 在 我 们 设计 的 场景 中 最 后 决定 及 纳 800GB SSD SATA Mix Use 6Gbps 内 存 设备 。 


最 后 一 个 重要 的 配件 是 磁盘 控制 器 。VMware 建 议 配 置 直 通 控制 器 。Dell 为 R730XD 提 供 了 2 个 型 号 : H330 和 H730。H330 
是 一 蒜 标 准 的 直通 控制 器 ， 而 H730 提 供 了 诸如 缓存 、 目 我 加 密 驱 动 器 和 其 他 各 种 高 级 功能 。 写 作 本 书 时 只 有 H730 支 持 VSAN， 
因此 我 们 决定 选择 H730。 


最 终 10 台 Dell R730XD 主 机 (〈 带 有 3.5 英 寸 驱 动 器 插 槽 ) 的 配置 如 下 : 
: 2 颗 12 核 下 5-2670 处 理 器 

- 512GB 内 存 

- 磁盘 控制 器 : Dell H730 

- 4 块 4TB NL-SAS 7200RPM E 3 


. 13:800GB SSD SATA (Mixed Use) 


9.8 场景 2: 服务 器 虚拟 化 -全 闪 仔 


在 这 个 场景 中 ， 我 们 采用 的 方法 和 场景 1 稍 有 不 同 。 因 为 某 些 有 意思 的 设计 上 的 考量 ， 我 们 将 使 用 一 种 不 同类 型 的 硬件 形 
人 态 ， 进 行 不 同 的 容量 设计 和 扩展 模式 ， 并 且 米 用 全 闪存 配置 。 这 个 场景 具有 以 下 要 求 : 


平均 每 合 虚拟 机 2 个 vCPU 

- 平均 每 台 虚 拟 机 8GB 内 存 

20% 的 内 存 过 量 配 置 

平均 每 人 台 虚 拟 机 150GB 虚 拟 磁盘 空间 


虚拟 机 磁盘 容量 的 预期 消耗 为 100% 


: 容错 方法 : 容量 (RAID-5/6) 
| 允许 的 故障 数 (FIT) : 2 
在 这 个 环境 中 ， 目 前 有 200 台 虚拟 机 ， 并 会 在 接 下 去 的 12 个 月 内 增长 到 300 台 。 因 此 VSAN 基 础 架构 应 该 能 提供 下 列 资 源 : 
- 300 X 2vCPU=600vCPU 
300 X 8GB-2400GB 内存-20% 过 量 分 配 =1920GB 内 存 
300 X150GB=45000GB 磁 盘 空间 


在 进行 容量 规划 时 ， 我 们 会 考察 2 种 不 同 的 服务 器 平台 。 由 于 虚拟 机 并 不 是 CPU 密 集 型 的 而 是 内 存 密集 型 的 ， 因 此 会 考虑 及 
用 8 : 1 的 vCPU/ 内 核 比 。 总 共 要 支持 600 个 vCPU， 除 以 8， 最 少 需 要 75 个 内 核 。 此 外 ， 忆 共 需 要 1920GB 内 存 和 45TB 的 存储 ,但 
这 时 还 未 考虑 FTT， 且 未 考虑 任何 去 重 和 压缩 市 来 的 可 能 的 空间 节省 。 在 进行 正式 设计 之 前 ， 让 我 们 先 来 看 看 存储 以 及 其 对 决策 
的 影响 。 


对 存储 的 要 求 相当 清楚 ， 如 果 要 实施 RAID-1 (镜像 ) 的 话 ， 殊 意味 着 默认 需要 3 倍 的 存储 容量 。 换 而 言 之 ,每 10GB 虚 拟 机 
容量 融 需 要 30GB 的 磁盘 空间 。 因 为 企 RAID-1 和 FTT=2 的 设 定 下 ， 你 需要 2 个 完整 的 数据 拷贝 来 应 对 2 个 故障 。 不 过 ， 从 VSAN 
6.2 开 始 ， 我 们 可 以 设 定 容错 方法 了 ， 你 可 以 选择 RAID-1 或 是 RAID-5/6。RAID5/6 的 开销 要 明显 低 于 RAID-1 的 配置 。 当 FTT=2 
的 时 候 RAID-6 的 开销 是 1.5 售 而 不 是 采用 RAID-1 时 的 3 倍 。 在 这 个 场景 中 意味 着 : 


FTT=2 且 FTM=RAID-6 时 : 45000GB=1.5x45000=67500GB 


束 RAID-5/6 的 全 闪存 配 置 来 说 ， 对 于 容量 另外 一 个 可 以 优化 的 选项 丈 是 去 重 和 压缩 。 注 意 ， 去 重 和 压缩 在 同一 个 域 中 要 人 么 
同时 局 用 要 么 同时 关闭 。 去 重 和 压缩 的 效果 因 工 作 负 载 类 型 的 不 同 而 异 。 对 于 数据 库 来 说 2 : 1 的 容量 节省 是 个 现实 的 估计 值 ， 而 
对 于 虚拟 桌面 来 说 可 能 更 接近 8 : 1。 那 么 对 于 我 们 这 个 场景 来 说 大 概 是 多 少 呢 ? 


在 我 们 的 这 个 场景 中 运行 的 是 各 式 各 样 混 杂 的 服务 器 ， 有 打印 服务 器 、 数 据 库 服务 器 和 各 种 其 他 类 型 。 从 去 重 的 角度 来 看 ， 
效率 可 能 没有 300 台 虚拟 机 都 类 似 时 那么 高 。 让 我 们 按 4 : 1 的 容量 节省 来 计算 。 而 且 ， 我 们 希望 即使 在 1 台 主 机 友 生 故障 ， 且 同 
时 进行 维护 的 时 候 ， 还 能 够 进行 数据 重 构 。 要 求 如 下 : 


- FTT=2 有 FTM=RAID-6 时 : 45000GB=1.5 X45000=67500GB 

4 : 1 的 数据 压缩 比例 ， 所 需 的 容量 是 67500GB 王 4=16875GB 

- 10% 的 缓存 容量 比 : 45000GB X 109524500GB 

“ 要 支持 RAID-6 最 少 需 要 6 台 主 机 

| 在 一 人 台 主 机 故障 的 同时 仍然 可 以 具有 完全 的 恢复 和 再 保护 能 力 (自我 修复 ) ， 这 意味 着 最 少 需要 7 台 主 机 

| 在 一 台 主 机 故障 的 同时 还 能 进入 维护 模式 ， 且 不 会 影响 数据 恢复 ， 这 意味 着 最 少 需 要 8 人 台 主 机 

. 假设 主机 故障 和 维护 模式 不 会 影响 恢复 ，16875GB 除 以 6， 意 味 着 每 台 主 机 需要 2812.50GB (包括 2 台 额 外 的 主机 ) 
. 对 于 缓存 ，4500GB 一 8， 每 台 主 机 562GB 


- 对 CPU 的 要 求 是 75 个 内 核 ， 除 以 6 台 主 机 【假设 一 台 主 机 故障 且 同 时 维护 模式 不 会 影响 性 能 ) ， 意 味 着 每 人 台 主 机 需要 12.5 


个 内 核 。 


` 内 存 需 求 是 1920GB， 除 以 6 台 主 机 ， 每 人 台 主 机 需要 320GB 内 存 。 
现在 结果 很 清楚 了 ， 列 表 如 下 : 

: CPU: 每 台 主 机 12.5 个 内 核 

|: WR: 每 台 主 机 320GB 

容量 : 每 台 主 机 2812.50GB 

` 缓存 : 每 台 主 机 750GB 


很 容易 友 现 ， 这 个 配置 中 的 缓存 数量 较 之 于 容量 层 来 说 相对 比较 多 ， 原 因 是 当 从 缓存 层 回 写 到 容量 层 的 时 候 友 生 了 去 重 和 压 
缩 ， 而 缓存 层 本 身 并 没有 收益 于 此 。 此 外 ， 另 一 个 需要 注意 的 是 全 闪存 配置 中 缓存 层 仪 用 作 写 缓存， 这 意味 着 需要 考虑 耐久 度 
(ERWE) 的 因素 ， 因 此 ， 我们 仍然 建议 使 用 10% 规 则 。 


在 这 个 配置 中 ， 我 们 选择 了 Supermicro 2U 4 节点 的 TwinP02 服 务 器 ， 它 在 2U 高 的 机 箱 中 提供 了 4 个 节点 。 根 据 可 用 性 、 可 


INNO 


恢复 性 和 性 能 的 要 求 ， 我 们 总 共 需 要 8 个 节点 。 服 务 器 型 号 是 SuperServer 2028TP-HCOTR， 如 图 9-7 所 示 。 











图 9-7 Supermicro SuperServer 


我 们 需要 2 人 台 该 型 号 的 服务 器 ， 在 平衡 性 能 和 成 本 的 情况 下 ， 决 定 使 用 以 下 配置 : 
- 双 路 6 核 Intel E5-2620 v32.4GHz 处 理 器 
- 每 台 主 机 384GB 内 存 
- 选择 SLC SATADOM 来 引导 ESXIi 
- LSI 3008 SAS 控 制 器 
- 缓存 层 : 1 块 Intel S3710 - 800GB 
- 容量 层 : 43kMicron M510DC - 960GB 


我 们 想 尽 可 能 多 地 利用 缓存 容量 ， 因 此 特意 选择 了 超过 VSAN 可 利用 范围 的 更 大 的 容量 。 在 写作 本 书 时 ，VSAN 6.2 和 更 早 
的 版 本 可 利用 的 缓存 容量 的 最 大 值 是 600GB。 这 意味 着 即使 是 在 维护 的 时 候 或 是 故障 友 生 的 时 候 ， 也 会 完 得 我 们 的 配置 略微 过 
了 后 。 不 过 ， 如 前 所 述 ， 在 全 闪存 配置 中 ， 最 重要 的 因素 是 写 缓存 的 耐久 度 ， 超 过 600GB 的 额外 容量 将 会 随 着 垃圾 回收 机 制 
(Garbage collection) 消耗 在 今后 的 使 用 过 程 中 ， 因 此 多 余 的 容量 在 全 闪存 配置 中 是 非常 受 欢 迎 的 。 另 一 个 选择 是 可 以 创建 较 
小 的 磁盘 组 ， 不 过 应 该 注意 较 小 的 磁盘 组 可 能 会 降低 去 重 的 效率 ， 而 且 较 小 的 缓存 设备 将 没有 多 余 的 容量 ,会 因为 较 低 的 耐久 度 
导致 生命 周期 较 短 。 


9.9 ”小结 


如 同 本 章 中 的 这 些 例子 所 说 明 的 那样 ， 仔 细 选 择 硬件 的 确 非常 重要 。 例 如 ， 选 择 了 某 种 类 型 的 磁盘 ， 可 能 会 导致 潜在 的 性 能 
问题 。 而 其 他 组 件 如 磁盘 控制 器 ， 也 会 对 VSAN 的 运行 市 来 某 种 影响 。 


你 应 该 在 做 出 购买 决策 之 前 深思 熟 虑 。 如 前 所 述 ，VMware 提 供 了 一 个 绝 好 的 选择 一 一 VSAN Ready Node 计 划 。 这 些 服务 
器 针对 VSAN 进 行 了 优化 和 配置 ， 简 化 了 由 不 同 硬件 选择 市 来 的 复杂 性 。 


第 10 章 ” 排 销 、 监 控 和 性 能 


本 章 讨论 可 在 VSAN 环 境 中 进行 监控 和 排 错 的 可 用 的 扩展 工具 集 ， 并 介绍 如 何 利 用 这 些 工具 快速 诊断 并 解决 VSAN 的 问题 。 
VSAN 可 以 利用 这 些 现成 的 vSphere 工 具 以 及 专用 于 VSAN 的 内 建 工 具 。 本 章 将 覆盖 以 下 工具 。 

: 运行 状况 检查 : 内 建 的 功能 ， 它 会 在 VSAN 群 集 上 运行 一 系列 测试 并 报告 发 现 的 任何 异常 情况 。 

- ESXCLI: ESXi 主 机 的 命令 行 界 面 (CLI) 

- Ruby vSphere Console (RVC) : 管理 vCenter Server 实 例 的 常规 工具 ,但 还 可 以 扩展 支持 VSAN 管 理 


- VSAN Observer: 利用 RVC 的 一 款 基 于 Web 的 性 能 工具 


- Esxtop: ESXi 主 机 性 能 监控 工具 


你 还 应 该 知道 ， 人 在 VSAN 6.2 引 入 性 能 服务 之 前 的 传统 的 监控 工具 ， 例 如 vSphere Web 客 户 端 ， 也 可 继续 用 于 VSAN， 提 供 
单个 虚拟 机 及 其 相关 VMDK 的 性 能 视图 。 


10.1 ZITATE 


在 第 7 章 中 ， 我 们 已 经 介绍 过 运行 状况 检查 (health check) 了 ， 本 章 中 我 们 将 以 更 多 更 深入 的 细节 来 继续 探讨 这 一 主题 。 
这 个 工具 应 该 是 管理 员 进 行 故障 排查 和 大 多 数 监控 工作 的 起 始点 。 运 行 状况 检查 会 查验 VSAN 配 置 的 方方面面 ， 并 报告 其 发 现 的 
任何 配置 问题 或 故障 。 


在 运行 状况 检查 的 最 初 发 布 版 本 中 (VSAN 6.0 提 供 ) ， 管 理 员 必须 从 VMware 下 载 该 组 件 并 手工 安装 之 一 首先 安装 在 
vCenter Server 上 ， 然 后 再 安 委 到 ESXi 主 机 上 。 不 过 ， 自 从 vSphere 6.0 U1 (其 中 包含 了 VSAN 6.1) 友 布 以 来 ， 运 行 状 况 检查 
所 需 的 组 件 就 被 预先 安装 好 了 且 总 是 启用 的 一 管理 员 甚 全 不 需要 去 启用 疡 。 


不 管 是 Windows 版 本 的 vCenter Server 还 是 Linux/ 虚 拟 设 备 版 本 的 vCenter 都 支持 VSAN 运 行 状况 检查 。 


通过 vSphere Web 客 户 新 用 户 界 面 获 得 的 所 有 关于 运行 状况 的 检查 都 可 以 通过 RVC (Ruby vSphere Console) 来 实现 。 我 
们 将 在 本 章 后 面 深入 探讨 RVC。 


10.1.1 Ask VMware 


天 于 运行 状况 检查 的 另 一 个 非常 有 用 的 事实 是 每 个 检测 都 有 一 个 “Ask VMware” 链 接 。 这 些 链接 可 以 直接 把 管理 员 引 同一 
篇 VMware 知 识 库 文 草 ， 告 诉 你 天 于 此 测试 的 目的 、 可 能 友 生 问题 的 原因 以 及 解决 此 状况 的 方法 。 如 果 检 测 友 现 了 问题 ， 管 理 员 
应 该 总 是 点 击 “Ask VMware” 按 钮 并 阅读 相关 的 知识 库 文章 。 很 多 情况 下 文章 中 都 提供 了 找 出 解决 万 案 的 步骤 。 其 他 一 些 情况 
下 ， 省 理 员 会 被 强烈 建议 联系 VMware 支 持 人 员 来 获得 进一步 的 协助 。 图 10-1 显 示 了 完整 的 运行 状况 检查 的 清单 以 及 “Ask 
VMware” 按 钮 。 你 可 以 随时 点 击 这 个 按钮 来 获得 此 天 于 此 项 检测 的 更 多 信息 。 
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图 10-1 Ask VMware 


10.1.2 ”运行 状况 检查 分 类 


默认 情况 下 ，Virtual SAN 6.2 中 忌 共有 7 种 不 同 种 类 的 运行 状况 检查 测试 ， 它 们 是 : 


: Virtual SAN HCL 运行 状况 


- 数据 运行 状况 

` 限制 运行 状况 

` 物理 磁盘 运行 状况 

- Virtual SAN 性 能 服务 

如 果 部 署 的 VSAN 是 一 个 延伸 群集 ， 另 外 还 会 有 一 组 额外 的 运行 状况 检查 与 之 对 应 。 让 我 们 接 下 去 深入 了 解 一 下 。 
Virtual SAN HCL 运行 状况 


Virtual SAN HCL 运行 状况 (HCL 是 hardware compatibility list 的 缩写 ， 意 思 是 硬件 兼容 列表 ) 检验 存储 控制 器 硬件 和 驱 
动 程序 版 本 是 不 是 在 HCL 中 ， 是 否 受 当 前 版 本 VSAN 的 支持 。 如 果 控 制 器 或 驱动 程序 不 在 HCL 中 ， 或 者 不 受 VSAN 当 前 版 本 (就 
是 VSAN 运 行 着 的 ESXi 版 本 ) 的 支持 ， 那 么 运行 状况 检查 就 会 显示 一 个 警示 消息 (warning). 


另 一 个 检查 是 验证 VSAN HCL 数 据 库 是 不 是 最 新 的 ， 也 丈 是 说 ， 你 运行 的 这 些 检 查 是 不 是 基于 一 个 有 效 的 最 新 的 HCL 数 据 库 
版 本 。 图 10-2 显 示 的 是 一 个 因为 HCL 数据 库 并 非 最 新 而 导致 的 警示 消息 。 
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Checks the age of the VMware Hardware Compatibility Guid database. [i] 
HCL DB info 

Entity Time in UTC 
Current time | 2015-12-21 09:37:33 

Local HCL DB copy last updated 2015-07-14 07:12:24 











图 10-2 ”警示 : Virtual SAN HCL 数据 库 更 新 状况 


因为 HCL 会 被 频繁 更 新 ， 管 理 员 也 应 该 更 新 该 数据 库 的 本 地 版 本 。 这 可 以 在 线 更 新 (如 果 你 的 vCenter Server 可 以 访问 到 
VMware.com) ， 或 者 在 vCenter Server 不 在 线 的 情况 下 ， 可 以 通过 手工 下 载 HCL 数 据 库 文件 再 进行 更 新 。 


要 在 线 更 新 HCL 数据 库 ， 只 需要 简单 地 点 击 “Upload from file" (从 文件 上 传 ) RE “Get latest version online" (在 
线 获取 最 新 版 本 ) ， 如 图 10-2 所 示 。 另 一 种 方法 是 导航 到 vCenter Server 清 单 中 的 VSAN 群 集 对 象 ， 选 择 Manage (管理 ) ， 选 
择 Health and Performance 〈 运 行 状况 与 性 能 ) ， 然 后 在 HCL 数据 库 部 分 点 击 “Get latest version online” (在 线 获取 最 新 
版 本 ) 按钮 。 如 图 10-3 所 示 ，“Last updated” (最 近 更 新 ) 字段 应 该 变 成 “Today” (SR). 


一 旦 把 HCL 数 据 库 更 新 到 最 新 版 本 ， 关 于 HCL 数 据 库 更 新 状态 的 检测 束 会 显示 为 Passed (通过 ) 。 你 应 该 重新 进行 运行 状 
况 检查 ， 以 友 现 此 次 HCL 数 据 库 的 更 新 是 不 是 会 解除 某 些 对 存储 控制 器 硬件 支持 或 驱动 程序 版 本 的 警示 消息 (如 图 10-4 所 


不 ) 。 











Health Service 


Health service status €9 Enabled 
Health service version 6.2.0.0 
Health check interval 60 minutes 
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图 10-3 最近 更 新 : 今天 
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ual SAN HCL DB up-to-date Upload from file. . Get latest version online 


Checks the age of the VMware Hardware Compatibility Guid database. 
HCL DB info 


Entity Time in UTC 
Current time 2015-12-21 09:51:00 
Local HCL DB copy last updated 2015-12-21 09:45:56 





图 10-4 Virtual SAN HCL 数据库 的 更 新 状况 检查 显示 为 通过 


注意 ， 如 果 从 vCenter Server 到 群集 中 某 一 台 或 多 台 主 机 的 通信 有 问题 ， 在 HCL 运 行 状况 中 可 能 会 显示 出 一 些 额 外 的 运行 状 
USES, 


群集 运行 状况 
群集 运行 状况 具有 一 组 不 同 的 测试 。 百 先 ， 它 检查 并 确保 运行 状况 服务 已 经 安 和 到 了 群集 中 的 所 有 主机 上 ;其 次 ， 它 验证 所 


有 主机 上 的 服务 都 是 最 新 版 本 的 ;最 后 ， 它 检查 运行 状况 服务 的 运行 是 正常 的 。 


还 有 一 项 检查 ， 用 来 确保 关于 VSAN 的 大 量 的 高 级 参数 在 VSAN 群 集中 所 有 主机 上 都 保持 一 致 。 这 避免 了 因为 一 部 分 主机 的 
某 个 高 级 参数 使 用 一 个 值 而 另外 一 部 分 主机 使 用 另 一 个 不 同 的 值 导致 的 问题 。 注 意 ， 此 测试 并 不 会 检查 设置 的 参数 值 是 不 是 一 
个 “好 的 ”数值 ， 甚 至 也 不 会 检查 它 是 不 是 默认 值 ， 它 只 是 检查 VSAN 群 集中 所 有 主机 的 此 参数 值 是 否 相 同 。 


最 后 一 个 值得 一 提 的 测试 是 CLOMD 活 动 性 (liveness) 检查 。CLOM 就 是 cluster level object manager (群集 级 别 对 象 管 
HER) ， 它 在 群集 中 每 台 ESXi 主 机 上 都 运行 一 个 叫做 clomd 的 后 台 程 序 。CLOM 负 责 创建 、 修 复 和 迁移 对 象 。 它 对 于 VSAN 处 理 
不 同 的 工作 流 和 故障 处 理 非常 关键 。 如 果 某 台 主 机 的 clomd 因 为 某 种 原因 不 响应 了 ， 测 试 就 会 失败 。 


VSAN 6.2 引 入 了 大 量 额外 的 群集 检查 来 处 理 空间 效率 问题 。 在 这 尝 新 的 检查 中 ， 空 间 效 率 指 的 是 VSAN 6.2 新 引入 的 去 重 和 
压缩 功能 。 这 些 检 查 基 本 上 是 为 了 确保 群集 中 的 所 有 主机 和 磁盘 组 在 磁盘 效率 方面 的 配置 都 是 正确 的 ， 并 会 凸显 出 群集 范围 内 发 
现 的 错误 。 图 10-5 显 示 了 关于 群集 运行 状况 检查 的 完整 列表 。 


Virtual SAN Health (Last checked: Today at 9:50 AM) 


Test Result Test Name 

© Passed » Cluster health 

© Passed Advanced Virtual SAN configuration in sync 

© Passed Disk group with incorrect space efficiency configuration 
© Passed ESX Virtual SAN Health service installation 

© Passed Space efficiency configuration consistency 

© Passed Virtual SAN CLOMD liveness 

© Passed Virtual SAN Disk Balance 

© Passed Virtual SAN Health Service up-to-date 
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图 10-5 3£4 


运行 状况 检测 关于 网 络 这 部 分 的 测试 最 多 。 它 涉及 网 络 配置 的 各 个 方面 ， 例 如 确保 VSAN 和 群集 中 的 每 台 主 机 都 配置 了 一 个 用 
于 VSAN 流 量 的 VMkernel 网 络 接口 ， 所 有 主机 的 VSAN 网 络 接口 都 可 以 相互 ping 通 ， 而 且 所 有 接口 都 可 以 匹配 组 播 配 置 。 


此 外 还 有 一 些 网 络 检查 确保 VSAN 和 群集 中 的 所 有 ESXi 主 机 都 联 入 vCenter Server， 没 有 一 台 主 机 存在 网 络 连 接 问 题 ， 以 及 群 
集中 不 存在 没有 参与 VSAN 群 集 的 主机 .。 


如 果 出 现 网 络 分 区 (network partition) 问题 ， 这 是 应 该 第 一 个 访问 的 运行 状况 检查 。 它 会 告诉 你 哪 台 主机 位 于 哪个 分 
区 ， 或 者 是 否 出 现 了 全 网 隔离 的 情况 (每 台 主 机 之 间 相 互 隔离 ， 通 党 是 因为 网 络 中 存在 组 播 故 障 ) 。 图 10-6 显 示 了 关于 网 络 运 
行 状况 检查 的 完整 列表 。 


Virtual SAN Health (Last checked: Today at 9:50 AM) 


Test Name 
» Network health 
All hosts have a Virtual SAN vmknic configured 


All hosts have matching multicast settings 


All hosts have matching subnets 


Basic (unicast) connectivity check (normal ping) 
Hosts disconnected from VC 

Hosts with connectivity issues 

Hosts with Virtual SAN disabled 

MTU check (ping with large packet size) 
Multicast assessment based on other checks 
Unexpected Virtual SAN cluster members 
Virtual SAN cluster partition 





图 10-6 ”网 络 运行 状况 
数据 运行 状况 


数据 运行 状况 检查 只 有 一 个 测试 一 一 VSAN 对 象 运 行 状况 。 这 个 测试 检查 VSAN 数 据 存 储 中 部 署 的 所 有 对 象 是 否 是 健康 的 ， 
并 会 将 不 健康 的 对 象 显示 出 来 。 出 现 不 健康 的 对 象 的 原因 有 很 多 ， 可 能 是 因为 对 象 的 组 件 正在 被 重建 或 等 待 被 重建 因此 其 可 用 性 
下 降 导致 的 ， 也 可 能 是 因为 群集 中 同时 友 生 多 个 故障 而 造成 对 象 完 全 不 可 被 访问 。 此 测试 提供 了 对 象 的 运行 状况 概 换 ， 可 显示 对 
象 的 各 种 状态 。 如 果 VSAN 正 处 在 重建 缺失 组 件 前 的 60 分 钟 CLOMD 倒 计时 等 待 期 内 ， 管 理 员 可 以 跳 过 此 等 待 期 ， 强 制 发 起 即刻 
重建 (例如 知道 主机 可 能 友 生 故障 无 法 在 60 分 钟 内 恢复 ) 。 它 也 可 以 告诉 管理 员 组 件 的 重建 是 人 否 已 经 在 进行 中 了 。 





限制 运行 状况 


限制 运行 状况 (Limits health) 检查 VSAN 和 群集 的 限制 情况 。 在 “当前 群集 状况 ”测试 中 ， 它 检查 组 件 限 制 一 一 当前 上 限 值 
为 每 台 主 机 9000 个 。 它 也 检查 磁盘 空间 利用 率 和 读 取 缓 仓 保留 ， 如 果 有 超过 上 限 值 的 情况 友 生 ， 融 会 友 出 报警 。 


还 有 一 个 测试 会 检查 主机 故障 上 友 生 时 对 群集 内 限制 情况 的 影响 。 如 果 友 生 主 机 故障 时 有 任何 限制 值 超过 了 上 限 ， 也 会 友 出 一 
个 警示 信息 。 这 在 某 种 程度 上 和 vSphere HA 中 的 准 入 控制 有 点 儿 像 ， 它 能 帮助 管理 员 监 控 故 障 发 生 的 时 候 VSAN 是 否 有 足够 的 


物理 磁盘 运行 状况 


物理 磁盘 运行 状况 包含 有 大 量 的 检查 ,涉及 VSAN 和 存储 的 多 个 方面 。 整 体 磁盘 运行 状况 检查 (Overall Health Check) 会 查 
看 物理 磁盘 驱动 器 各 个 方面 的 问题 ， 包 括 表 面 问题 、 控 制 器 问题 、 驱 动 程序 问题 、1O 堆 枝 问 题 等 。 如 果 这 个 运行 状况 测试 中 遇 
到 其 他 一 些 问题 ， 例 如 元 数据 健康 状况 、 拥 堵 、 软 件 状 态 问题 或 磁盘 容量 问题 ， 它 也 会 显示 错误 状态 (fall) 。 如 果 测 试 显示 错 
误 状 态 ， 售 理 员 需 要 查看 是 否 仓 企 其 他 测试 失败 来 探究 故障 根源 。 


组 件 限制 运行 状况 测试 验证 每 个 磁盘 的 组 件数 是 否 超 过 了 上 限 值 。 这 是 一 个 相当 大 的 数字 ， 在 50000 数 量 级 上 。 不 过 如 果 任 
何 磁盘 的 组 件数 达到 了 饱和 数值 的 话 ， 运 行 状 况 检查 测试 束 会 友 出 提醒 。 


对 管理 员 来 咒 ， 拥 堵 测 试 是 另 一 个 有 趣 的 测试 。 这 是 VSAN 是 否 运 行 在 性 能 降低 的 状态 中 的 指示 器 。 拥 堵 的 原因 是 多 种 多 样 
的 ， 通常 需 要 进一步 的 检查 。 在 某 些 例 子 中 ， 可 能 是 因为 VSAN 群 集 相 对 于 其 工作 负载 来 说 配置 的 资源 过 小 ， 或 是 因为 存储 控制 
器 的 硬件 、 驱 动 程序 、 固 件 甚至 是 软件 故障 造成 的 。 


如 果 物 理 磁 盘 容 量 开始 出 现 上 问题 ， 磁 盘 容 量 报告 融 会 友 出 警示 消息 。 如 果 物 理 磁 盘 空 间 使 用 率 低 于 80%， 测 试 将 显示 为 绿色 
(ET) 。 如 果 磁 盘 使 用 率 介 于 80%~95% 之 间 ， 运 行 状况 束 会 显示 为 黄色 的 警示 。 如 果 使 用 率 超过 了 95%， 运 行 状 况 检 查 服务 
吏 会 友 出 红色 的 报警 信号 。80% 的 阔 值 是 目 动 进行 重 新 平衡 的 触 上 友 点 。 


天 于 物理 磁盘 运行 状况 ， 我 们 要 提 的 最 后 一 组 测试 是 内 存 池 测 试 。 这 些 测试 会 检查 并 确保 VSAN 使 用 的 内 存 池 具 有 足够 的 
iid GE) 和 slab (WERE) 。 尽 管 这 不 太 会 友 生 。 如 果 运 行 状况 检查 测试 友 出 了 和 警示 消息 ， 建 议 联系 VMware 又 持 人 员 来 研究 
可 题 的 原因 。 内 存 池 见 帮 会 导致 性 能 问题 ， 甚 至 会 引起 VSAN 的 运行 故障 。 


图 10-7 显 示 了 网 络 磁盘 运行 状况 检查 的 完整 列表 。 如 果 和 某 个 特定 磁盘 的 通信 出 现 了 困难 ， 那 么 其 他 运行 状况 检查 也 可 能 
会 出 现 。 


Virtual SAN Health (Last checked: Today at 9:50 AM) 


Test Result Test Name 
© Passed +» Physical disk health 


Passed Component limit health 


Passed Component metadata health 
Passed Congestion 

Passed Disk capacity 

Passed Memory pools (heaps) 
Passed Memory pools (slabs) 
Passed Metadata health 

Passed Overall disks health 

Passed Software state health 








图 10-7 HR EK E GRA4T4AUL 


VSAN 延 伸 群 集 


VSAN 6.1 为 VSAN 延 伸 群 集 引 入 了 一 组 运行 状况 检查 ， 它 们 主要 着 眼 在 延伸 群集 配置 的 各 个 方面 ， 并 为 运行 状况 检查 的 错 
误 状 态 提 供 指 导 。 这 对 于 任何 开始 考虑 部 署 VSAN 延 伸 群 集 的 管理 员 来 癌 是 非 单 棒 的 起 点 。 更 多 的 信息 请 参见 第 8 章 中 关于 
VSAN 延 伸 群 集 的 详细 摘 述 。 


VSAN 性 能 服务 


最 后 一 项 运行 状况 检查 是 VSAN 6.2 带 来 的 新 功能 ， 叫 做 性 能 服务 。 如 果 性 能 服务 没有 被 配置 过 ， 这 个 测试 就 会 报告 一 个 错 
误 消 息 称 Stats DB Object is not found (没有 找到 状态 数据 库 对 象 ) ， 如 图 10-8 所 示 。 


irtual SAN Health (Last checked: Today at 9:50 AM) 


Test Result Test Name 
(à Warning v Virtual SAN Performance Service 
A Warning Stats DB object 


| 


Stats DB object 


Checks status of Virtual SAN Performance Service stats DB object 
Details 
Check Status Health 


Stats DB Object Exists Not found A Warning 





图 10-8 性 能 服务 运行 状况 CAR) 


当 性 能 服务 被 启用 后 (我 们 很 快 会 演示 如 何 做 ) ，VSAN 性 能 服务 运行 状况 检查 束 会 列 出 很 多 额外 的 运行 状况 测试 ， 我 们 希 
这 些 状态 都 是 绿色 (RAF) 的 ， 如 图 10-9 所 示 。 这 些 测试 确保 了 所 有 主机 都 在 给 性 能 服务 提供 数据 并 且 状 态 数 据 库 对 象 ( 事 
上 它 束 是 位 于 VSAN 数 据 存 储 中 的 一 个 虚拟 机 主页 名 字 空 间 对 象 ) 是 健康 的 。 


EN 


10.1.3 ”主动 的 运行 状况 检 树 


在 结束 运行 状况 检查 的 章节 之 前 ， 还 有 一 个 值得 一 提 的 特性 ， 融 是 运行 状况 检查 中 的 主动 测试 (proactive health 
check) 。 主 动 的 运行 状况 检查 包含 有 一 组 能 告诉 你 一 切 尽 在 掌控 之 中 一 切 运行 正常 的 模拟 测试 。 注 意 ，VMware 并 不 建议 在 生 
产 环 境 中 运行 这 些 测试 。 这 些 测试 主要 用 在 VSAN 环 境 搭建 之 初 且 尚未 投入 生产 之 前 ,或 是 用 在 概念 验证 (proof-of- 
concept) 阶段 ， 用 来 确保 一 切 都 如 同 预 期 一 般 可 以 正常 运行 。 它 包含 3 个 主动 测试 : 


- 虚拟 机 创建 测试 
- 组 播 性 能 测试 


- 存储 性 能 测试 


Virtual SAN Health (Last checked: Today at 12:01 PM) 


Test Result Test Name 

© Passed v Virtual SAN Performance Service E 
© Passed All hosts contributing stats 

© Passed Performance data collection 

© Passed Stats DB object 

© Passed Stats DB object conflicts 

© Passed Stats master election 本 
M z 42itome [Nw 


Stats DB object 


Ask VMware 
Checks status of Virtual SAN Performance Service stats DB object o 
Details 
Check Status Health 
Stats DB Object Exists OK © Passed 
Stats DB Object Health healthy © Passed 
Stats DB Object Free Space 196 used © Passed 


图 10-9 ”性 能 服务 运行 状况 (启用 时 ) 


要 访问 这 些 主动 测试 ， 从 vCenter Server 清 单 中 选择 群集 对 象 ， 然 后 选择 监控 (monitor) ， 再 选择 Virtual SAN, ， 最 后 选 
择 主 动 测试 (Proactive Tests) 。 这 时 将 显示 主动 测试 的 列表 ， 你 可 以 选择 要 开始 的 测试 并 点 击 用 户 界 面 中 的 开始 图 标 。 当 有 
测试 被 选中 的 时 候 ， 开 始 图 标 会 变 成 绿色 ， 这 意味 着 你 现在 可 以 开始 测试 了 。 让 我 们 接 下 去 依次 更 深入 地 得 看 一 下 每 个 测试 ， 如 
图 10-10 所 示 。 


Getting Started Summary | Monitor | Manage Related Objects 





Issues | Performance | Profile Compliance | Tasks | Events | Resource Reservation | Utilization | Virtual SAN 





44 Proactive Tests 


v Cluster Performance > 





Virtual Machine 
Consumption 


Name 
VM creation test @ 
Multicast performance test ir 


Virtual SAN Backend 
v Virtual SAN 
Storage performance test £9 
Physical Disks 
Virtual Disks 
Resyncing Components 
Health 


Capacity ir 





图 10-10 ”主动 测试 


虚拟 机 创建 测试 


根据 群集 大 小 的 不 同 ， 运 行 虚 拟 机 创建 测试 大 概 需要 花费 20~40 秒 ， 这 个 测试 会 在 群集 中 的 每 一 台 主 机 上 都 创建 一 个 虚拟 
机 ， 然 后 再 删除 它们 。 任 务 控制 从 可 以 用 来 跟 路 虚拟 机 的 创建 和 删除 过 程 。 这 是 个 非常 有 用 的 测试 ， 它 可 以 在 VSAN 数 据 存 储 被 
真正 投入 生产 应 用 之 前 ， 验 证 的 确 可 以 在 其 上 创建 虚拟 机 。 如 果 在 虚拟 机 创建 测试 过 程 中 出 现 了 部 署 虚拟 机 的 问题 ， 测 试 要 么 会 
马上 失败 ， 要 么 会 在 3 分 钟 超时 后 失败 。 这 个 测试 给 虚拟 机 使 用 的 是 默认 的 虚拟 机 存储 策略 。 它 会 验证 VSAN 操 作 的 多 个 万 面 ， 
包括 网 络 是 否 在 所 有 主机 上 都 合理 配置 了 ， 每 台 主 机 上 的 VSAN 扒 栈 是 否 正常 运作 ，VSAN 对 象 的 创建 、 删 除 和 进行 /O 操 作 的 
功能 是 否 都 正 单 。 测 试 结果 会 显示 有 哪些 主机 通过 了 测试 而 又 有 哪些 主机 没有 通过 。 图 10-11 显 示 的 是 在 一 个 4 节点 VSAN 和 群集 上 
成 功 运行 虚拟 机 创建 测试 的 结 


Getting Started Summary | Monitor | Manage Related Objects 


Prone Conpianc nca ui Sky 


44 Proactive Tests 





v Cluster Performance > A s 
et — Last Run Time 
Consumption : dun | u -— | 
Virtual SAN Backend werna T Monday, December 28, 2015 11:28:07 AM 
Multicast performance test @ N/A 
v Virtual SAN ^ 


Storage performance test €9 
Physical Disks 
Virtual Disks H 


Resyncing Components 
VM creation test - Details 
Health 


: Hosts VM Creation Test Result 
Capacity 


z Host 
Proactive Tests i 
esxi-d-scnd.rainpole.com Success 





esxi-b-pref rainpole.com success 


g esxi-a-pref.rainpole.com Success 


esxi-c-scnd.rainpole.com success 





图 10-11 虚拟 机 创建 测试 


组 播 性 能 测试 


下 一 个 测试 不 仅仅 验证 VSAN 和 群集 中 所 有 主机 之 间 的 网 络 连接 ， 还 验证 网 络 连接 的 速度 和 性 能 是 否 达 到 了 VSAN 和 群集 的 期 
望 。 该 测试 会 选择 一 台 主 机 友 起 测试 ， 并 报告 其 所 能 达到 的 市 宽 (MB/s) 。 在 这 个 4 节操 群 集中 ， 我 们 可 以 看 见 VSAN 通 过 


=Œ o 


10Gb 网 络 可 以 达到 超过 80M B/s 的 速度 ， 这 满足 了 VSAN 对 网 络 的 需求 ， 所 以 测试 成 功 了 ( 见 图 10-12) 。 


Getting Started Summary | Monitor | Manage Related Objects 


44 Proactive Tests 
w Cluster Performance 


Q Filter -) 
Virtual Machine 


4 Name Last Run Result Last Run Time 
Consumption 





VM creation test. 9 © Passed Monday, December 28, 2015 11:28:07 AM 
Virtual SAN Backend 

Multicast performance test 9 © Passed 
Storage performance test 9 N/A 


Monday, December 28, 2015 11:36:55 AM 
v Virtual SAN 


N/A 
Physical Disks 3 
3 items z 

Virtual Disks i 
Resyncing Components 





Multicast performance test - Details 
Virtual SAN Hosts Multicast Performance Test Result 


Host Health Status Received Bandwidth (MB/s) 
esxi-a-pref.rainpole.com © Passed 80.90 
esxi-b-pref rainpole.com © Passed 80.13 


esxi-c-scnd rainpole.com Q Passed 80.88 


Maximum Achievable Bandwidth Result (MB/s) 
125.00 
125.00 
125.00 





图 10-12 ”组 播 性 能 测试 


如 果 组 播 性 能 测试 失败 了 ， 融 应 该 检查 网 络 配置 。 如 果 部 分 主机 成 功 而 另 一 些 主机 失败 了 ， 应 该 检查 成 功 的 主机 之 间 和 失败 
的 主机 之 间 是 否 存 在 类 似 的 配置 模式 例如， 它们 是 不 是 位 于 不 同 的 交换 机 ? 或 许 交 换 机 之 间 的 链 路 /省 道 没有 正确 配置 ?又 或 
者 有 没有 足够 的 带宽 ? 组 播 是 VSAN 非 常 重要 的 组 件 ， 在 真正 将 VSAN 投 入 生产 之 前 ， 管 理 员 必须 确保 其 配置 正确 且 运 行 达到 期 
PAR. 

存储 性 能 测试 


如 果 需 要 的 话 管 理 员 可 以 好 好 利用 一 下 最 后 这 一 个 主动 测试 。 关 于 存储 性 能 测试 很 棒 的 一 点 是 绾 理 员 可 以 目 己 决定 想 要 运行 
多 长 时 间 。 这 意味 着 管理 员 可 以 在 VSAN 初 次 部 署 完 成 后 整 夜 整 伶 地 运行 这 个 测试 。 事 实 上 ， 融 是 为 了 这 个 目的 ， 该 测试 有 多 个 
不 同 的 工作 负载 可 以 选择 ， 如 图 10-13 所 示 。 


| Low stress test 

Low stress test 

Basic sanity test, focus on Flash cache layer 

Stress test 

Performance characterization - 10096 Read, optimal RC usage 


Performance characterization - 10056 Write, optimal WB usage 





Performance characterization - 10096 read, optimal RC usage after warmup 


图 10-13 ”存储 性 能 测试 工作 负载 选项 


如 果 测 试 运行 了 一 整 夜 且 所 有 项 目 都 通过 了 ， 你 就 可 以 安心 了 ， 说 明 所 有 存储 组 件 (控制 器 硬件 、 驱 动 程序 、 固 件 、 缓 存 层 
设备 和 存储 层 设备 ) 都 工作 正常 。 如 果 测 试 没 通 过 ， 那 说 明 你 在 VSAN 投 入 生产 之 前 发 现 了 问题 。 除 了 可 以 选择 测试 的 时 长 和 需 
要 检测 的 性 能 类 型 ， 管 理 员 还 可 以 选择 特定 的 虚拟 机 存储 策略 。 在 之 前 版 本 的 VSAN 中 ， 测 试 的 都 是 RAID-1 配 置 ， 不 过 随 着 
VSAN 6.2 的 发 布 ， 现 在 可 以 选择 RAID-5 或 RAID-6 的 策略 了 。 


现在 ,我 们 应 该 很 清楚 运行 状况 检查 是 对 VSAN 群 集 进行 监控 和 排 错 的 最 佳 工 具 。 它 应 该 是 在 涉及 VSAN 群 集 的 不 正常 情况 
发 生 时 首先 使 用 的 分 析 工 具 。 再 配 之 以 Ask VMware 和 用 来 描述 每 个 测试 的 知识 库 文 章 ， 管 理 员 就 可 以 获得 非常 强大 的 组 合 工具 
来 找到 很 多 VSAN 问 题 的 根本 原因 。 


不 过 ， 除 了 运行 状况 检查 之 外 ， 还 有 其 他 工具 也 可 以 用 来 对 VSAN 进 行 监控 和 故障 排查 ， 而 且 在 最 初版 本 的 VSAN 中 ， 只 有 
这 些 工 具 可 以 用 ， 因 为 运行 状态 检查 仪 仪 在 VSAN 6.0 才 出 现 。 下 面 我 们 将 讨论 这 些 其 他 工具 。 


10.2 ESXCLI 


ESXi 5.5U1 引 入 了 一 个 新 的 ESXi 命 令 行 (ESXCLI) 指令 集 : esxcli vsan。 它 拥有 一 组 额外 的 命令 参数 ， 用 于 检查 、 监 控 和 
配置 VSAN 和 群集 ， 如 下 : 


示例 10-1  esxcli vsan 命 令 选项 
~ d$ esxcli vsan 
esxcli vsan 


Usage: esxcli vsan {cmd} [cmd options] 


Available Namespaces: 


cluster Commands for VSAN host cluster configuration 
datastore Commands for VSAN datastore configuration 
network Commands for VSAN host network configuration 
storage Commands for VSAN physical storage configuration 
faultdomain Commands for VSAN fault domain configuration 


maintenancemode Commands for VSAN maintenance mode operation 
policy Commands for VSAN storage policy configuration 


trace Commands for VSAN trace configuration 


接 下 来 我 们 将 介绍 其 中 的 一 些 选项 。 


10.2.1 esxcli vsan datastore 


esxcli vsan datastore 指 令 集 可 用 来 进行 VSAN 数 据 存 储 配 置 。 它 能 做 的 事情 很 少 ， 只 能 用 来 获取 和 设置 VSAN 数 据 存 储 的 
名 字 。VSAN 数 据 存 储 的 默认 名 字 是 vsanDatastore。 如 果 你 有 想法 要 更 改 vsanDatastore 这 个 名 字 ， 请 通过 vSphere Web 客 户 
问 在 群集 层面 上 进行 更 改 。 如 果 你 正 通过 同一 个 VCenter Server 管 理 多 个 VSAN 和 群集 ， 我 们 强烈 建议 你 给 每 个 VSAN 数 据 存储 起 
一 个 独一无二 且 容 易 辨 识 的 名 字 。 如 示例 10-2 所 示 。 


示例 10-2  esxcli vsan datastore 命 令 选 项 


^ d esxcli vsan datastore 


Usage: esxcli vsan datastore {cmd} [cmd options] 


Available Namespaces: 
name Commands for configuring VSAN datastore name. 
^ 4$ esxcli vsan datastore name 
Usage: esxcli vsan datastore name (cmd) [cmd options] 
Available Commands: 
get Get VSAN datastore name. 


set Configure VSAN datastore name. In 
general, Rename 


should always be done at cluster 
level. Across a VSAN 


cluster VSAN datastore name should be 
in Sync. 


^ # esxcli vsan datastore name get 


Name: vsanDatastore 


10.2.2. esxcli vsan network 


这 个 指令 集 用 于 VSAN 的 网 络 配置 。 某 种 程度 上 说 ， 它 比 前 面 的 datastore 指 令 集 还 要 有 用 ， 因 为 它 可 以 列 出 当前 配置 、 清 
除 当 前 配置 、 恢 复 VSAN 网 络 配置 (这 里 指 的 是 ESXi 引 导 过 程 中 的 配置 恢复 ， 不 是 指 由 用 户 发 起 的 恢复 动作 ) 以 及 从 VSAN 网 络 
配置 中 移 除 一 个 接口 。 如 示例 10-3 所 示 。 


示例 10-3  esxcli vsan network 命令 选项 


~ 4$ esxcli vsan network 


Usage: esxcli vsan network (cmd) [cmd options] 
Available Namespaces: 
ip Commands for configuring IP network for VSAN. 


ipv4 Compatibility alias for "ip" 


Available Commands: 


clear Clear the VSAN network configuration. 

PNE List the network configuration currently in use by VSAN. 
remove Remove an interface from the VSAN network configuration. 
restore Restore the persisted VSAN network configuration. 


^ 4 esxcli vsan network list 
Interface 
VmkNic Name: vmk2 
IP PPOLOCOLT IP 
Interface UUID: a6997656-d456-5d5f-091a-ecf4bbd69680 
Agent Group Multicast Address: 224.2.3.4 
Agent Group IPv6 Multicast Address: ff19::2:3:4 
Agent Group Multicast Port: 23451 
Master Group Multicast Address: 224.1.2.3 
Master Group IPv6 Multicast Address: ff19::1:2:3 
Master Group Multicast Port: 12345 
Host Unicast Channel Bound Port: 12321 
Multicast TTL: 5 


这 里 有 趣 的 地 方 是 组 播 信息 。 回 顾 一 下 第 2 草 ， 你 或 许 会 记 起 VSAN 要 求 加 入 到 群集 的 ESXi 主 机 之 间 人 允许 组 播 流 量 通 过 


另 一 个 值得 注意 的 地 方 是 ， 最 初版 本 的 VSAN 只 支持 IPv4， 从 VSAN 6.2 版 开始 支持 IPv6。 不 过 最 吸引 人 的 地 方 是 组 播 的 细 
节 。Agent Group Multicast Port 对 应 于 cmmds 端 口 ， 这 个 端口 在 VSAN 启 用 的 时 候 在 ESXi 防 火 墙 上 被 打开 。 第 一 个 IP 地 址 
224.2.3.4 用 于 主 控 和 备用 之 间 的 通信 ， 而 第 二 个 地 址 224.1.2.3 用 于 代理 (agent) 。esxcli vsan network list 是 一 个 有 用 的 命 
令 ， 可 以 企 网 络 分 区 的 情况 下 用 来 查看 网 络 配置 和 网 络 状态 。 


其 他 对 诊断 网 络 | 问题 有 用 的 命令 如 下 : 
esxcli network diag ping: 测试 VMkernel 端 口 的 响应 。 
: esxcli network ip neighbor list: 显示 ARP 缓 存 中 的 网 络 上 所 有 其 他 VSAN 节 点 。 
- esxcli network ip connection list: 显示 UDP 连接 信息 。 


B-A 


` tcepdump-uw: 噢 探 网 络 流量 。 


10.2.3 esxcli vsan storage 


这 个 指令 集 用 于 仓储 配置 ， 通 过 其 选项 可 以 选择 VSAN 声 明 磁 盘 的 万 式 ， 并 能 够 给 VSAN 添 加 和 移 除 物理 磁盘 。 


esxcli vsan storage automode 命 令 可 用 来 获取 或 设置 自动 声明 (auto-claim) 。 如 果 它 被 设置 成 禁用 ， 群 集 就 处 于 
manual 模 式 (手动 模式 ) 。 如 示例 10-4 所 示 。 


示例 10-4  esxcli vsan storage 命 令 选 项 


^ # esxcli vsan storage 


Usage: esxcli vsan storage (cmd) [cmd options] 


Available Namespaces: 


automode Commands for configuring VSAN storage auto claim mode. 
diskgroup Commands for configuring VSAN diskgroups 
tag Commands to add/remove tags for VSAN storage 


Available Commands: 


add Add physical disk for VSAN usage. 
list List VSAN storage configuration. 
remove Remove physical disks from VSAN disk groups. 


^ # esxcli vsan storage automode 
Usage: esxcli vsan storage automode (cmd) [cmd options] 


Available Commands: 
get Get status of storage auto claim mode. 


set Configure storage auto claim mode 


要 显示 某 谷 VSAN 中 特定 的 ESXi 主 机 上 已 经 声明 并 被 使 用 的 容量 层 和 缓存 层 设备 ， 可 用 list 选 项 。 这 个 特殊 的 配置 是 全 闪存 
配置 ，SSD 被 用 于 容量 层 而 一 个 Micron PCI-E 设 备 被 用 于 缓 仔 层 ， 并 且 在 字段 Used by this host ERE T truer, HBH 
它们 都 已 经 被 VSAN 声 明 过 了 。1s SSD 字 段 指明 设备 的 类 型 (true 指 闪存 设备 ) 。 如 示例 10-5 所 示 。 


示例 10-5  esxcli vsan storage list 


^ 4$ esxcli vsan storage list 
naa.500a07510f£86d69e 
Device: naa.500a07510f86d69e 
Display Name: naa.500a07510f86d69e 


Is SSD: true 
VSAN UUID: 5229022d-deb5-bced-O0efc-a7dc8c38ac45 
VSAN Disk Group UUID: 5253f4bf-1b26-6098-88f5-d8e9ed255359 


VSAN Disk Group Name: t10.ATA Micron P420m2DMTFDGAR1T4MAX 
0000000014080C116FB2 


Used by this host: true 

In CMMDS: true 

On-disk format version: 3 
Deduplication: true 
Compression: true 

Checksum: 10274305517717035587 
Checksum OK: true 


Is Capacity Tier: true 
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naa.2UUaU/21UI60Qq0ae 
Device: naa.500a07510f86d6ae 
Display Name: naa.500a07510f86d6ae 
Is SSD: true 


VSAN UUID: 522b6fae-7730-bbc4-afd1-64890001d99c 


VSAN Disk Group UUID: 5253f4bf-1b26-6098-88f£5-d8e9ed255359 
VSAN Disk Group Name: 七 10 .ATA Micron, P420m2DMTFDGARITA4MAX 





.  .0000000014080C116FB2 
Used by this host: true 
In CMMDS: true 
On-disk format version: 3 
Deduplication: true 
Compression: true 
Checksum: 10405036710067954474 
Checksum OK: true 


Is Capacity Tier: true 


naa.500a07510£8648683 
Device: naa.500a07510f864d683 
Display Name: naa.500a07510f864d4683 
Is SSD: true 


VSAN UUID: 52458701-1b77-9ff£3-015c-87d804769e753 


VSAN Disk Group UUID: 5253f4bf-15b26-6098-88f5-d8e9ed255359 
VSAN Disk Group Name: t10.ATA Micron. P420m2DMTFDGAR1TA4MAX 


—  .0000000014080C116FB2 
Used by this host: true 
In CMMDS: true 
On-disk format version: 3 
Deduplication: true 
Compression: true 
Checksum: 13174218208763526163 
Checksum OK: true 


Is Capacity Tier: true 


t10.ATA Micron P420m2DMTFDGARI1T4MAX 


0000000014080C116 


00000000140 


FB2 
Device: tl10.ATA Micron. P420m2DMTFDGARI1T4MAX 
80C116FB2 

Micron. P420m2DMTFDGARIT4MAX 00000 


Display Name: tl10.ATA 
00014080C116FB2 

Is SSD: true 
VSAN UUID: 5253f4À4bf-15b26-6098-88f£5-d8e9ed255359 


VSAN Disk Group UUID: 5253f4bf-15b26-6098-88f5-d8e9ed255359 
Micron P420m2DMTFDGARITA4MAX 





VSAN Disk Group Name: 七 10 .ATA 
0000000014080C116FB2 
erug 


Used by this host: 


In CMMDS: true 
On-disk format version: 
true 


3 


Deduplication: 


Compression: true 


Checksum: 1185495176288858 6646 
Checksum OK: true 


Is Capacity Tier: false 


如 果 你 想 用 ESXCLH 来 给 VSAN 中 的 某 个 磁盘 组 添加 新 磁盘 ， 可 以 用 add 选 项 。 根 据 硬盘 是 磁盘 还 是 SSD， 选 项 有 所 不 同 (分 


别 对 应 为 -d|--disks 或 -s|--ssd) 。 注 意 ， 只 有 空 的 上 且 没 有 分 区 信息 的 硬盘 才能 加 入 VSAN。 
条 合 令 时 你 必须 非 音 小心， 从 VSAN 的 磁盘 


remove 选 项 可 以 用 来 从 VSAN 的 磁盘 组 里 面 移 除 磁盘 和 SSD。 姓 庸 置疑 ， 使 用 这 条 命令 
组 中 移 除 磁 盘 应 该 被 视 为 一 次 维护 任务 。remove 选 项 会 从 指定 硬盘 (通过 一 个 参数 提供 ) 中 移 除 所 有 分 区 信息 (因此 也 包含 所 
有 VSAN 信 息 ) 。 注 意 ， 如 果 从 一 个 磁盘 组 中 移 除 一 个 缓 仔 层 设 备 ， 整 个 磁盘 组 都 会 变 得 不 可 访问 。 


如 果 你 有 磁盘 曾经 用 于 VSAN 而 现在 又 打算 派 其 他 用 场 (VMFS、 裸 设备 映射 【RDM 】 或 某 些 场合 下 把 SSD 用 作 vSphere 闪 
存 读 取 缓 存 ) ， 可 以 使 用 remove 选 项 来 清除 遗留 在 人 磁盘 上 的 VSAN 分 区 信息 。 


天 于 磁盘 和 磁盘 控制 器 的 其 他 有 用 的 命令 如 下 : 
位 于 硬件 兼容 性 列表 (HCL) 中 非常 


oN 


esxcli storage core adapter list: 显示 驱动 程序 和 适配器 的 描述 ， 这 对 于 检查 适配器 是 否 


有 用 。 
esxcfg-info - s | grep"——-- SCSI Interface" -A18: 这 条 命令 将 显示 大 量 信 息 ， 其 中 最 重要 的 是 显示 设备 的 队列 深度 ， 这 对 于 
性 能 来 说 非常 重要 。 
言 它 是 一 条 非常 有 用 的 命 


令 ， 可 以 显示 SSD 的 耗损 状况 以 及 SSD 的 整体 健康 度 。 


esxcli storage core device stats get: 显示 硬盘 的 整体 统计 信息 。 


10.2.4 esxcli vsan cluster 
esxcli vsan cluster 命 令 人 允许 执行 命令 的 ESXi 主 机 获取 VSAN 和 群集 信息 ， 还 可 以 让 其 加 入 或 离开 一 个 VSAN 群 集 。 在 vCenter 
非常 有 用 ， 它 可 以 从 VSAN 群 集中 移 除 一 台 特 定 的 主机 。restore 功 能 不 是 给 用 户 自行 发 起 使 用 


ZAA 


Server 不 可 用 的 情况 下 ， 这 条 命令 
的 ， 而 是 在 ESXi 局 动 的 过 程 中 用 于 从 配置 文件 中 恢复 有 效 的 群集 配置 。 如 示例 10-6 所 示 。 


示例 10-6  esxcli vsan 


cluster 命 令 选 项 


^ # esxcli vsan cluster 


Usage: esxcli 


vsan cluster (cmd) [cmd options] 


Available Namespaces: 


preferredfaultdomain Commands for configuring a preferred fault domain 


for Virtual SAN. 


unicastagent Commands for configuring unicast agents for Virtual 


SAN. 


Available Commands: 


get 


join 


leave 


new 


restore 


Get information about the Virtual SAN cluster that 
this host is joined to. 


Join the host to a Virtual SAN cluster. 


Leave the Virtual SAN cluster the host is currently 
joined to. 


Create a Virtual SAN cluster with current host 
joined. A random sub-cluster UUID will be 
generated. 


Restore the persisted Virtual SAN cluster 
configuration. 


这 条 命令 的 get 选 项 很 有 用 ， 可 以 收集 本 地 ESXi 主 机 (TA) 的 运行 状况 信息 及 其 在 群集 中 的 角色 信息 。 在 示例 10-7 中 ， 你 
将 看 到 这 人 台 ESXi 主 机 是 一 个 agent (RE) 并 且 其 运行 状况 状态 是 healthy (正常 ) 。 如 第 5 草 中 曾经 讨论 过 的 ， 其 他 状态 有 


master ( 主 控 ) 和 backup 


(备用 ) 。 这 些 状 态 与 主机 在 群集 服务 (CMMDS) 中 扮演 的 角色 有 关 。 如 果 需 要 复习 一 下 VSAN 中 


主机 的 不 同 角 色 ， 请 参考 第 5 章 。 


示例 10-7  esxcli vsan 


cluster get 


~ # esxcli vsan cluster get 


Cluster Information 


Enabled: tr 
Current Loc 
Local Node 
Local Node 
Local Node 
Local Node 
Sub-Cluster 
Sub-Cluster 
Sub-Cluster 
Sub-Cluster 
Sub-Cluster 


Sub-Cluster 


ue 

al Time: 2015-12-28T12:04:04Z2 

UUID: 5676978a-6c3d-28fc-9ea2-ecf4bbd69680 

Type: NORMAL 

State: AGENT 

Health State: HEALTHY 

Master UUID: 56703560-1a41-3037-9a8c-ecf4bbd5b260 
Backup UUID: 56702cdc-d064-d2a5-8457-ecf4bbd58600 
UUID: 523ldfdb-cfe7-aal3-ccfc-2a49e09e85b4 
Membership Entry Revision: 3 


Member Count: 4 


Member UUIDs: 56703560-1a41-3037-9a8c-ecf4bbd55b260, 


5676978a-6c3d-28fc-9ea2-ecf4bbd69680, 56702cdc-d064-d2a5-8457-ecf4bbd58600, 
56707c8b-3353-d670-c080-ecf4bbd59370 


Sub-Cluster 


Membership UUID: aad47756-b3ac-eb5d8-7fbd-ecf4bbd50200 


从 上 面 命令 行 的 输出 结果 中 我 们 可 以 看 见 的 另外 一 条 有 用 的 信息 是 群集 子 成 员 的 UUID。 这 个 字段 中 一 共有 4 个 值 ， 说 明 这 
离 问 


是 个 4 节点 的 群集 。 这 条 命令 可 以 显示 出 每 人 台 主 机 都 各 上 自 认为 群集 中 有 哪些 证 各 ， 在 对 网 络 隔 


题 进行 排 销 时 相当 有 用 。 如 果 


你 想 显 示 哪 个 主机 对 应 哪个 UUID， 可 以 用 命令 esxcli system uuid get<uuid>。 


10.2.5 esxcli vsan faultdomain 


故障 域 是 VSAN 6.0 引 入 的 ， 它 使 得 VSAN 可 以 感知 机 染 配 置 ， 意 思 束 是 组 成 同一 台 虚 拟 机 的 对 象 的 组 件 不 仅仅 可 以 分 布 在 
不 同 的 主机 上 ， 还 可 以 分 布 到 不 同 的 机 架 上 。 也 束 是 说 即使 整个 机 架 都 友 生 故 障 (例如 机 架 挥 电 ) ， 仍 然 会 有 一 整 组 虚拟 机 组 件 
可 用 ， 因 此 虚拟 机 仍 可 被 访问 。 


~# esxcli vsan faultdomain 
Usage: esxcli vsan faultdomain (cmd) [cmd options] 


Available Commands: 


get Get the fault domain name for this host. 
reset Reset Host fault domain to default value 
set Set the fault domain for this host 


故障 域 还 被 用 在 VSAN 延 伸 群集 和 2 节点 配置 上 。 这 些 已 经 在 本 书 前 面 讨论 过 。 你 不 太 会 需要 用 到 这 个 esxcli vsan 
faultdomain 命 令 集 来 进行 配置 。VMware 推 荐 使 用 vSphere Web 客 户 端 用 户 界面 来 对 故障 域 、 延 伸 群 集 以 及 2 节点 (ROBO) 
群集 进行 配置 。 


10.2.6 esxcli vsan maintenancemode 


maintenancemode 是 一 个 有 趣 的 命令 行 选项 。 你 或 任 会 完 得 这 条 命令 可 以 用 来 进入 或 退出 维护 模式 ， 但 事实 并 非 如 此 。 这 
个 命令 唯一 能 做 的 就 是 取消 一 个 进行 中 的 VSAN 维 护 模 式 的 操作 。 不 过 ， 这 仍然 是 一 条 非常 有 用 的 命令 ， 尤 其 是 在 下 面 这 种 情况 
T: 当 你 决定 将 一 台 主 机 置 于 维护 模式 并 已 经 选择 了 Full Data Migration (迁移 全 部 数据 ) 选项 ， 然 后 想 停 止 这 个 进行 中 的 数 
据 迁 移 (因为 它 需 要 很 长 时 间 ) 并 改换 成 Ensure Access (确保 可 访问 性 ) 模式 上 时。 注意 ， 你 可 以 用 esxcli system 


maintenanceMode set-e true-m noAction 命 令 来 将 一 个 节点 置 入 维护 模式 ， 这 里 -m 参 数 所 定 组 件 是 否 要 被 移动 。 


~ d esxcli vsan maintenancemode 


Usage: esxcli vsan maintenancemode {cmd} [cmd options] 


Available Commands: 


cancel Cancel an in-progress VSAN maintenance mode operation. 


10.2.7 esxcli vsan policy 


本 书 的 前 几 章 已 经 详细 介绍 过 了 虚拟 机 存储 策略 。VSAN 会 给 虚拟 机 存储 对 象 关联 上 默认 存储 策略 ， 下 面 示例 10-8 显 示 的 
esxcli vsan policy 指 令 集 是 检查 并 更 改 默 认 存 储 策略 的 一 种 方法 。 


示例 10-8  esxcli vsan policy 命 令 选 项 


~ $ esxcli vsan policy 
Usage: esxcli vsan policy (cmd) [cmd options] 


Available Commands: 


cleardefault Clear default VSAN storage policy values. 
getdefault Get default VSAN storage policy values. 
setdefault Set default VSAN storage policy values. 


^ $ esxcli vsan policy getdefault 


Policy Class Policy Value 











cluster (("hostFailuresToTolerate" i1)) 
vdisk (("hostFailuresToTolerate" i1)) 
vmnamespace (("hostFailuresToTolerate" i1l)) 
vmswap (("hostFailuresToTolerate" il) ("forceProvisioning" i1)) 
vmem (("hostFailuresToTolerate" i1) ("forceProvisioning" i1)) 


这 里 可 以 看 见 构 成 一 全 VSAN 数 据 存 储 上 的 虚拟 机 的 各 种 虚拟 机 存储 对 象 ， 还 能 看 见 默 认 策 略 的 值 。 尽 管 策略 值 被 称 为 host 
failures to tolerate (人 允许 的 主机 故障 ) ， 它 事实 上 等 同 于 vSphere Web 客 户 痕 中 看 见 的 number of failures to tolerate (fè 
许 的 故障 数 ) 。 所 有 的 对 象 都 可 以 容忍 群集 中 发 生 的 至 少 一 个 故障 并 维持 可 用 。 类 vdisk 指 的 是 虚拟 机 磁盘 对 象 (VMDK) , 6 
也 履 震 了 快照 增 量 。 类 vmnamespace 残 是 虚拟 机 主页 名 字 空 间 ， 其 中 存放 痢 虚 拟 机 的 配置 文件 、 元 数据 文件 和 日 志文 件 。 人 策略 
类 vmswap 当 然 束 是 虚拟 机 交换 文件 。 关 于 vmswap 最 后 要 提醒 的 是 它 具 有 forceProvisioning 属 性 ， 这 意味 着 即使 VSAN 群 集中 
没有 足够 的 空间 来 满足 2 个 虚拟 机 交换 文件 副本 以 容忍 一 个 故障 ，VSAN 仍 将 置 备 虚拟 机 ， 只 不 过 此 时 只 能 提供 一 个 交换 文件 实 
例 。 天 于 强制 置 备 的 细节 可 以 在 本 书 的 很 多 其 他 章节 中 找到 。 最 后 一 个 是 vmem。 丈 是 快照 内 存 对 儿 ， 它 是 对 虚拟 机 担 快照 的 同 
时 会 请 求 扫 报 的 内 存 快照 。 在 VSAN 的 最 初 友 布 版 本 中 ， 虚 拟 机 内 存 是 保存 在 虚拟 机 主页 名 字 空 间 内 的 ， 不 过 上 自 VSAN 6.0 起 ， 
快照 内 存 被 移动 到 了 其 自己 的 对 象 中 。 


如 果 你 想 要 变更 默认 策略 ， 帮 助 文件 中 包括 大 量 的 信息 来 介绍 每 一 个 策略 。 对 默认 策略 进行 配置 的 命令 如 下 : 


# esxcli vsan policy setdefault <-p|--policy> <-c|--policy-class> 


不 过 ，VMware 建 议 避 免 在 ESXi 主 机 上 配置 任何 策略 。 这 是 因为 你 将 不 得 不 在 群集 中 每 一 台 主 机 上 重复 所 有 这 些 步 骤 。 这 是 
耗 时 很 长 、 术 燥 乏 味 并 容易 犯错 误 的 操作 。 推 荐 的 方法 是 通过 vSphere Web 客 尸 新 或 如 果 可 能 的 话 用 RVC (Ruby vSphere 
Client) 来 修改 策略 。 然 而 ， 对 于 VM swap， 因 为 不 能 通过 vSphere Web 客 户 端 或 RVC 更 改 ， 这 是 修改 其 黑 认 策略 的 唯一 万 
法 。 


诚然 ， 我 们 并 未 履 盖 默认 策略 中 所 有 可 能 的 策略 设置 ， 但 是 如 果 你 希望 这 么 做 的 话 ， 当 然 完全 可 以 把 它们 全 部 包括 进来 。 不 
过 正如 前 面 多 次 重点 提起 的 那样 ， 更 改 默认 策略 必须 谨慎 ， 例 如 ， 给 允许 的 故障 数 或 闪存 读 取 缓存 预 留 设置 了 不 合理 的 默认 值 可 
能 会 导致 无 法 置 备 任何 虚拟 机 的 后 果 。 从 esxcli vsan policy setdefault 命 令 的 帮助 输出 结果 中 ， 可 以 显示 更 多 策略 设置 的 细 
节 ， 展 示 如 下 。 


:cacheResetvation: 为 存储 对 象 预 留用 作 读 取 缓 冲 的 闪存 容量 。 这 个 设置 只 对 混合 配置 有 效 ， 不 能 用 于 全 闪存 配置 ， 因 为 全 
闪存 配置 没有 读 缓 冲 。 显 示 为 对 象 逻 辑 大 小 的 一 个 百分比 。 仅 用 于 解决 读 取 的 性 能 问题 。 预 留 的 闪存 容量 不 能 用 于 其 他 对 象 ， 而 
未 被 预 留 的 闪存 被 所 有 对 象 平均 共享 。 其 值 表 现 为 百 万 分 之 几 ， 默 认 值 为 0， 最 大 值 为 1000000。 


forceProvisioning: 若 此 选项 值 为 yes， 则 即使 在 存储 策略 中 的 要 求 无 法 被 群集 中 的 现 有 资源 满足 的 情况 下 ， 对 象 仍然 会 被 
置 备 。 当 要 求 的 资源 可 用 时 ，VSAN 会 将 对 象 置 于 合 规 状 态 。 默 认 值 为 No。 


- hostFailuresToTolerate: 定义 了 一 个 存储 对 和 象 可 以 容忍 的 主机 、 磁 盘 或 网 络 故 障 的 数量 。 要 容 尺 fn 个 故障 ， 就 需要 创建 nt+1 
个 对 象 描 贝 ， 并 要 求 分 布 到 2n+1 台 主机 的 存储 上 去 。 默 认 值 为 1， 最 大 值 为 3。 


- sttipeWidth: 每 个 存储 对 象 副本 条 带 化 后 横路 的 磁盘 数 。 这 个 数值 如 果 大 于 1 可 能 会 带 来 更 好 的 性 能 〈 例 如 在 混合 配置 中 
当 闪 存 读 取 缓 冲 未 命中 后 需要 直接 由 磁盘 提供 服务 时 ) ， 但 是 增加 sttipeWidth 并 不 能 保证 性 能 提升 。 默 认 值 为 1， 最 大 值 为 12。 


- proportionalCapacity: 是 存储 对 象 逻 辑 大 小 的 一 个 百分比 ， 用 于 表示 虚拟 机 置 备 〈 类 似 于 厚 置 备 ) 时 预 留 的 空间 。 存 储 对 
象 的 剩余 部 分 则 通过 精简 置 备 来 提供 。 默 认 值 为 0%， 最 大 值 为 100%o。 


-iopsLimit: VSAN 6.2 中 的 新 参数 。 这 个 设置 定义 了 磁 一 的 正 第 化 的 IOPS 上 限 。VSAN 测 量 磁 一 的 IO 速率 ， 如 果 超 过 了 


IOPS 限 制 ，IO 〇 就 会 被 延迟 以 使 之 保持 在 限制 值 范围 内 。 如 果 此 数值 设 为 0， 意 味 着 不 设 限 。 默 认 值 为 0。 


replicaPreference: VSAN 6.2 中 的 新 参数 。 此 设置 用 于 为 对 象 选择 RAID-5 或 RAID-6 而 不 是 RAID-1/ 镜 像 配置 时 。 如 果 复 制 
方法 选择 了 Capacity 而 不 是 Performance (RA) ， 且 允许 的 故障 数 设 成 了 1， 那 么 就 会 实施 RAID-5; 如 果 选 择 Capacity (容量 ) 的 
同时 设置 允许 的 故障 数 为 2， 那 么 就 会 实施 RAID-6。 注 意 ， 只 有 当 允 许 的 故障 数 为 1 或 2 的 时 候 才 可 以 选择 Capacity (容量 ) o R 


认 值 是 Petfotmance (性 能 ) o 


另 一 个 值得 提起 的 用 于 setdefault 命 令 的 参数 是 -c|--policy-class 选 项 。 这 束 是 要 更 改 上 默认 值 的 那个 VSAN 策 略 类 。 其 选项 包 
括 cluster、vdisk、vmnamespace 和 vmswap， 命 令 中 必须 包含 其 中 之 一 。 


最 后 要 提 一 下 cluster， 它 是 策略 类 选项 之 一 ,但 是 和 vmnamespace、vdisk 或 vmswap 不 同 ， 它 不 是 一 个 虚拟 机 存储 对 
。 这 个 选项 用 于 包罗 所 有 VSAN 数 据 存储 上 部 署 的 不 属于 虚拟 机 存储 对 象 的 那些 部 分 。 尽 管 我 们 不 冤 得 有 任何 非 虚 拟 机 存储 对 


R 
象 类 型 会 放置 在 VSAN 数 据 存储 上 ， 为 了 万 一 会 用 到 这 个 参数 ， 我 们 还 是 在 这 里 先 提 一 下 。 


10.2.8 esxcli vsan trace 


esxcli vsan trace 是 一 个 排 错 和 诊断 的 工具 ， 不 应 该 在 没有 VMware 全 球 支 持 服务 (Global Support Services, GSS) Ai 
指导 的 情况 下 使 用 。 它 被 设计 用 来 捕获 VSAN 内 部 的 一 些 诊断 信息 ， 用 于 进行 进一步 分 析 。 我 们 在 示例 10-9 中 列 出 其 选项 只 是 为 
了 完整 起 见 


示例 10-9  esxcli vsan trace 人 命令 选 项 


~ d esxcli vsan trace 


Usage: esxcli vsan trace (cmd) [cmd options] 


Available Commands: 
set Configure VSAN trace. Please note: This command is not 


thread safe. 


~ d$ esxcli vsan trace set -h 


Usage: esxcli vsan trace set [cmd options] 


Description: 
set Configure VSAN trace. Please note: This command is not 


thread safe. 


Cmd options: 


-f|--numfiles-«long» Log file rotation for VSAN trace files. 

-p|--path=<str> Path to store VSAN trace files. 

-r|--reset When set to true, reset defaults for VSAN trace 
files. 

-s|--size-«long» Maximum size of VSAN trace files in MB. 


10.2.9 FEHFVSANTESBSEEHFESXCLIAB S 


除了 esxcli vsan 系 列 命 令 之 外 ， 还 有 一 些 ESXi 主 机 上 的 命令 行 指令 可 能 对 监控 和 排 错 有 所 帮助 。 
osls-fs 


osls-fs 比 起 所 有 其 他 命令 来 说 不 仅仅 是 一 个 排 错 的 指令 。 它 可 用 于 显示 VSAN 数 据 存储 中 的 内 容 。 这 条 命令 不 在 搜索 路 径 
中 ， 但 是 可 以 在 示例 10-10 中 找到 。 在 这 条 命令 中 ， 我 们 列举 了 VSAN 数 据 存 储 中 一 台 虚 拟 机 目录 中 的 内 容 。 当 vSphere Web% 
尸 端 中 的 数据 存储 文件 视图 不 能 正确 显示 的 时 候 ， 或 是 由 于 这 样 那样 的 原因 补 认 为 显示 的 信息 不 准确 时 ， 这 条 命令 束 非 常 有 用 
了 。 


示例 10-10 ”osfs-ls 命 令 


~ d cd /vmfs/volumes/vsanDatastore 
^ $ /usr/lib/vmware/osfs/bin/osfs-ls win2k8x64-1 1/ 


“Doss 
Ne SL 
‚POC SI 
dabo. SI 
VIS ET 
pbz.st 


‚sda SL 
.6cc6d752-a00c-ad67-268e-0010185def78.1ck 


win2k8x64-1.vmdk 

Wwin2k8x64-l.nvram 

win2k8x64-1.vmx 

win2k8x64-1.vmxf 

win2k8x64-1.vmsd 

win2k8x64-1 2.vmdk 

.dvsData 
.£6ccd752-5843-0da9-4149-0010185def78.1ck 
win2k8x64-1 1.vmdk 

vmware.log 
.d8dad752-a897-8b6a-8a96-0010185def78.1ck 


cmmdüds-tool 


cmmds-tool 是 另 一 个 ESXi 主 机 带 有 的 有 用 的 排 错 命令 ， 可 以 用 来 显示 很 多 VSAN 人 信息。 可 以 显示 的 信息 包括 配置 、 元 数 
据 、 和 群集 的 状态 、 和 群集 中 主机 的 状态 以 及 虚拟 机 存储 对 象 的 状态 。 很 多 其 他 上 层 诊 断 工具 都 利用 了 cmmds-tool 收 集 到 的 信息 。 
可 以 想象 ， 它 带 有 大 量 的 选项 ， 如 示例 10-11 所 示 。 


示例 10-11 cmmds-tool 命 令 选 项 


~ $ cmmds-tool 


usage: cmmds-tool «cmd» «options» 


commands: 

add Adds an entry from stdin. On successful exit the 
entry is guaranteed to be in the directory 

delete Deletes matching entries. On successful exit the 
entry will be deleted from the directory 

dump Dumps first matching entry to stdout 

find Finds matching entries 

wait Waits for a matching entry to appear 

waitdump Waits for a matching entry to appear and dumps 


the entry to stdout 


waitformembership Waits for a membership entry to appear 


whoami Get the node's uuid as used in the sub-cluster 
amimember Check if I am the member in the current sub-cluster 
readdump Reads a cmmds directory dump from a file 


(specified with -d/--dumpfile) and 
o/p to stdout in a given format specified 


using -f option. 


options: 
-o/--owner-«uuid»: Entry owner 
-u/--uuid-«uuid»: Entry uuid 


-t/--type-«int»|«name»: Entry type 


-r/--rev-«int»: Entry revision (-1 for latest) 

-1/--timeouts«int»; Max time for wait (0 for infinite wait) 

-f/--format-«fmt»: Output format (fmt should be one of 

jJson/python/simple. Default is 

‘simple’ 

-d/--dumpfile=<file>: Filename to read the cmmds dump from. 

-p/--print-dump-hdr: When CMMDS dump is read off the file, 
should 


the dump file header be 
printed as well 


-v/--verbose-«int»: Verbosity level 


-HZ--nelp: Print this help text 


find 选 项 可 能 是 最 有 用 的 一 个 选项 ， 尤 其 是 当 你 想 要 收集 某 台 虚拟 机 背后 真实 的 存储 对 象 的 信息 时 。 例 如 ， 可 以 看 见 某 个 特 
定 对 象 的 健康 状态 。 在 示例 10-12 中 ， 我 们 想 要 发 现 UUID 是 52777432-f127-f001-d081-800a04cafb0e 的 磁盘 对 象 的 额外 的 信 


/LO 


示例 10-12 cmmds-tool find «uuid» 


^ 4 cmmds-tool find -u 52777432-f127-£001-d081-800a04cafb0e 
owner-52ca9e00-b362-a040-eb2a-984bel047ad4 (Health: Healthy) 
uuid-52777432-f127-f001-d081-800a04cafb0e type-DISK rev=0 
[content = (1587068342272 1100 1410000000 1200000000 1+0 13400000 
10 i10 i15 11600000 10 116777216 i0 
5214bl1a5-b6b1-3a3a-f8b6-ee4ecc7a8d0e 
"52d7b4db-515e86a0-383a-001021168828")], errorStr- (null) 
owner-52ca9e00-b362-a040-eb2a-984bel047ad4 (Health: Healthy) 
uuid-52777432-£f127-f001-d081-800a04cafb0e type-HEALTH STATUS rev=0 
[content = (i0 1319401449472)], errorStr- (null) 
owner-52ca9e00-b362-a040-eb2a-984bel047ad4 (Health: Healthy) 
uuid-52777432-f127-f001-d081-800a04cafb0e type-DISK USAGE rev-2645 
[content = (118874368 10 10 10 10)], errorStr- (null) 
owner-52ca9e00-b362-a040-eb2a-984bel047ad4 (Health: Healthy) 
uuid-52777432-f127-f001-d081-800a04cafb0e type-DISK STATUS rev-645 
[content = (1430420688896 10 10 i10 18 10 1261888 10 10 10 10 10 10 
10 10 1+0 i4)], errorStr= (null) 


这 个 命令 确实 还 有 很 多 其 他 选项 可 用 。 例 如 ，-o<owner> 可 以 用 来 显示 所 有 属 主 是 <owner> 的 对 象 的 信息 。 这 可 能 会 产 
生效 量 可 观 的 输出 结果 。 


Type 是 另 一 个 选项 ， 它 可 用 -t 来 指明 。 根 据 和 输出 结果 ， 可 显示 的 类 型 包括 DISK、HEALTH STATUS, DISK USAGE 和 
DISK STATUS。 其 他 类 型 还 包括 DOM OBJECT, DOM NAME, POLICY, CONFIG STATUS, HA METADATA 和 
HOSTNAMEZ, 


示例 10-13 显 示 了 用 于 从 一 个 4 节点 群集 中 列 出 主机 名 的 命令 : 


示例 10-13 cmmds-tool find«type» 


~ d$ cmmds-tool find -t HOSTNAME 


owner-56703560-1a41-3037-9a8c-ecf4bbd55b260(Health: Healthy) uuid-256703560- 
1a41-3037-9a8c-ecf4bbd5b260 type-HOSTNAME rev-0 minHostVer-0 [content = 
("esxi-c-scnd.rainpole.com")], errorStr- (null) 


owner-56707c8b-3353-d670-c080-ecf4bbd59370(Health: Healthy) uuid-56707c8b- 
3353-d670-c080-ecf4bbd59370 type-HOSTNAME rev=0 minHostVer-0 [content = 
("esxi-d-scnd.rainpole.com")], errorStr- (null) 


owner-56702cdc-d064-d2a5-8457-ecf4bbd58600(Health: Healthy) uuid-256702cdc- 
d064-d2a5-8457-ecf4bbd58600 type-HOSTNAME rev-0 minHostVer-0 [content = 
("'esxi-b-pref.rainpole.com")], errorStr- (null) 


owner-5676978a-6c3d-28fc-9ea2-ecf4bbd69680(Health: Healthy) uuid-5676978a- 
6c3d-28fc-9ea2-ecf4bbd69680 type-HOSTNAME rev-0 minHostVer-0 [content = 
("esxi-a-pref.rainpole.com")], errorStr- (null) 


可 以 看 出 ， 这 条 命令 非常 强劲 ， 它 可 以 让 你 在 ESXi 主 机 上 进行 大 量 调查 研究 和 排 错 工作 。 例 如 当 一 个 大 型 群集 中 有 一 块 磁盘 
上 友 生 了 故障 ， 这 条 命令 可 以 用 于 友 现 哪个 仓储 对 象 受到 了 这 个 故障 的 影响 。 再 提醒 一 次 ， 使 用 这 条 命令 时 需要 小 心 ， 如 果 你 有 顾 
碟 ， 可 以 选择 在 VMware 文 持 人 员 的 指导 下 使 用 。 


vdq 


vdq 命 令 有 2 种 用 途 ， 它 的 确 是 ESXi 主 机 上 的 一 个 非常 好 的 排 错 工具 。 这 个 命令 的 第 一 个 选项 可 以 告诉 你 ESXi 主 机 上 的 磁盘 
合适 用 于 VSAN， 如 果 不 适用 ， 双 是 什么 原因 造成 的 。 


这 条 命令 的 第 2 个 选项 用 于 在 VSAN 局 用 之 后 ， 可 以 用 它 来 显示 碚 盘 映 射 信息 ， 也 就 是 显示 哪个 SSD (或 内 存 设备 ) 和 哪些 
磁盘 组 合 在 一 起 组 成 了 一 个 磁盘 组 。 


首先 ， 让 我 们 运行 这 个 命令 来 坦 询 所 有 适用 于 VSAN 使 用 的 硬盘 。 示 例 10-14 的 输出 结果 来 自 于 一 台 不 含有 VSAN 的 主机 。 


示例 10-14 vdq-q 


^ 4$ vdq -q 
[ 


"Name" : "naa.500a07510f£86d6c7", 


"VSANUUID" : "", 
"State" : "Eligible for use by VSAN", 
"Reason" : "None", 
"LsSsD" ; "LE 
"lstapacLitvbPlasn"s; "1". 
"ISPDL" (| Mo 
}, 
{ 
"Name" : "naa.5000c50040e9dd73", 
"VSANUUID" : "", 
"State" : "Eligible for use by VSAN", 
"Reason" |! "UNOD-loOCAal disk"; 
"LeBeD" 6 DT 
"IsCapacityFlash":; "Q", 
"ISPDL" s O"mUTS 


} ， 


在 前 面 这 个 例子 中 ， 磁 盘 可 以 用 于 VSAN。 换 而 言 之 ， 它 不 包含 任何 现 有 的 分 区 。 示 例 10-15 的 输出 结果 来 自 于 一 从 已 经 启 
用 了 VSAN 的 主机 。 


示例 10-15  vdq-q 


^ # vdq -q 
[ 
{ 
"Name" : "naa.500a07510f£8648693", 
"VSANUUID" : "52db956f-4841-a25e-b20b-14ea25dbb0a5", 
"State" : "In-use for VSAN", 
"Reason" : "None", 
"LaSop" MES ut 
"IsCaápacirvEPlashn"s WL 
"ISsPDL" : CN 
} ， 
{ 
"Name" : "naa.500a07510f86d69e", 
"VSANUUID" : "5229022d-deb5-bced-0efc-a7dc8c38ac45", 
"state" : "In-use for VSAN", 
"Reason" : "None", 
"IsSsoD" E RL g 
"LsCcapacitvELash"s TLS 


"TS PDL" 。 "ON, 
} ， 


"Name" : "t10.ATA Micron P420m2DMTFDGAR1T4MAX 
= ą0000000014080C116FB2", 


"VSANUUID" : "S253I4bri-1b26-6098-88L5-d8e96d4d255359"} 
"State" : "In-use for VSAN", 
"Reason" : "None", 
"LSSoD" LUIS 
"IsCapacityFlash": "O", 
"IsPDL" Rum, 
), 
{ 
"Name" DP "mpx.wvnbaszicDTOiLu", 
"VSANUUID" : "", 
"State" : "Ineligible for use by VSAN", 
"Reason" | "Has partitions; 
"ISsSSD" iioi * u^ 
"IsCapacityFlash": "OQ", 
"ISPDL" : UU". 


), 


可 以 看 出 ， 这 里 有 几 个 设备 都 已 经 被 VSAN 声 明 ， 而 另 有 一 个 磁盘 不 符合 条 件 ， 因 为 该 磁盘 已 经 含有 分 区 。 在 这 个 例子 中 ， 
不 符合 条 件 的 磁盘 是 ESXi 主 机 的 引导 磁盘 。 这 条 命令 还 指出 了 哪个 磁盘 是 SSD (lsSSD) 、 闪 存 设 备 在 全 闪存 配置 中 是 否 被 用 作 
了 容量 设备 (IsCapacityFlash) 以 及 磁盘 是 否 处 于 永久 性 设备 丢失 状态 (lsPDL) 。 


这 条 命令 第 2 个 有 用 的 选项 是 列 出 所 有 VSAN 磁 盘 的 映射 ， 换 而 言 之 ， 哪 些 | 闪存 设备 和 哪些 磁盘 在 同一 个 磁盘 组 中 。 示 例 10- 
16 显 示 了 一 个 输出 结果 的 示例 (包含 了 -HH 参数 以 使 输出 结果 更 易 让 人 读 懂 ) : 


示例 10-16 vdq-i-H 
^ # vdq -i -H 


Mappings: 
DiskMapping[0]: 
SSD: 

t10.ATA | Micron_P420m2DMTFDGAR1T4MAX 0000000014080C116FB2 
M naa.500a07510£864d693 
naa.500a07510f£86d69e 
naa.500a07510f£86d6ae 
.500a07510f£86d6056 
naa.500a07510£86d608 
naa.500a07510f£86d6bc 
naa.500a07510f£8648683 


d OS 


S 





C 








S S 

J L o D go u g 
- 
W 
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这 条 命令 显示 了 SSD 和 容量 设备 之 间 的 关系 ， 无 论 这 容量 设备 是 全 闪存 配置 中 的 内 存 容量 设备 还 是 混合 配置 中 的 磁盘 设备 。 
注意 ， 即 使 它们 是 闪存 设备 ， 在 这 个 输出 中 也 会 被 显示 为 MD (magnetic disk， 磁 盘 ) ， 必 须 查看 |sCapacityFlash 字 段 才 能 知 
道 这 些 是 否 真 正 是 闪存 设备 (例如 SSD) 。 如 果 你 想 要 从 命令 行 了 解 某 台 特定 主机 上 磁盘 组 的 布局 ， 这 条 命令 就 非常 有 用 了 ， 尤 
其 是 当 你 在 那 台 ESXi 主 机 上 配置 了 多 个 磁盘 组 的 时 候 ， 它 可 以 快速 告诉 你 哪 块 SSD 位 于 哪些 磁盘 的 前 端 。 


尽管 本 节 介 绍 的 一 些 命令 都 相当 有 用 ， 但 它们 都 是 在 某 一 人 台 ESXi 主 机 的 基础 上 来 检查 和 监控 VSAN 的 ， 管 理 员 肯定 还 需要 一 


些 可 以 让 他 们 从 群集 整体 的 角度 来 进行 检查 的 工具 。VMware 早 在 开发 VSAN 时 就 非常 清楚 这 一 点 ， 因 此 扩展 了 Ruby vSphere 
Console (RVC) 来 提供 VSAN 的 完整 的 群集 角度 的 视图 。 下 节 将 深入 探讨 RVC。 


10.3 Ruby vSphere Console 


上 一 节 介 绍 了 用 于 VSAN 的 基于 ESXi 主 机 的 命令 行 ， 在 进行 VSAN 故 障 诊断 的 时 候 这 或 许 会 有 点 用 ， 但 是 对 于 大 型 的 群集 ， 
管理 员 可 能 会 友 现 他 们 将 不 得 不 在 群集 中 不 同 的 主机 上 不 断 重 复 运 行 同一 组 命令 。 本 节 将 介绍 一 款 工 具 ， 它 使 你 可 以 从 群集 的 角 
度 来 进行 VSAN 的 管理 。 自 从 版 本 5.5 U1 起 VMware vCenter Server 包 含 一 个 新 的 组 件 叫做 Ruby vSphere Console (RVC) , 
七 也 可 以 在 VMware vCenter Virtual Appliance (VCVA) 中 找到 。 如 同 介 绍 中 所 摘 述 的 那样 ，RVC 是 一 个 可 编程 的 接口 ， 允 
许 管理 员 来 查询 vCenter、 群 集 、 主 机 、 存 储 和 网 络 的 状态 。 束 VSAN 而 言 ， 存 在 相当 多 的 可 编程 扩展 程序 来 显示 你 对 某 个 
VSAN 和 群集 想 了 解 的 大 量 信 息 。 本 市 将 介绍 RVC 中 的 这 些 VSAN 扩 展 。 


可 以 通过 RVC 连 接 到 任何 vCenter Server。 在 VCVA 上 ， 可 以 通过 Secure Shell (SSH) 登录 并 运行 [rvc<user>@<vc-ip> 


AAN 
RD X o 


在 基于 Windows 的 vCenter 环 境 中 ， 需 要 打开 命令 行 界面 并 导航 到 c: NProgram 
Files\VMware\Infrastructure\VirtualCenter Serven\support\rvc。 在 这 里 可 以 找到 rvc.bat 文 件 。 你 或 任 需 要 编辑 这 个 文件 ， 
添加 上 可 以 用 于 登录 到 vCenter Server 的 适当 的 账号 (默认 账号 是 Administrator@localhost) 。 账 号 设置 完成 后 ， 只 需要 简单 
地 运行 rvc.bat， 输 入 密码 ， 残 可 以 连通 了 ，。 


登录 后 ， 你 会 看 见 一 个 虚拟 文件 系统 ，vCenter Server 实 例 位 于 其 根 目 录 中 。 现 在 可 以 用 诸如 cd 和 ls 这 种 命令 来 四 处 打量 
了 ， 也 可 以 用 tab 来 快速 补充 完整 命令 行 。 这 个 文件 系统 的 结构 模拟 了 vSphere Client 中 的 清单 目录 树 。 因 此 ， 可 以 运行 
cd«vCenter Server>， 然 后 输入 cd<datacenter>。 可 以 用 ~ 来 指 代 当前 的 datacenter， 其 下 所 有 的 群集 都 位 
于 “Computers” 目 录 下 。 注 意 ， 当 你 企 文 件 夹 /目录 中 四 处 浏 贞 时 ， 列 出 的 内 容 都 市 有 一 些 数 值 。 这 些 数 值 可 能 也 能 用 作 快 捷 
方式 。 例 如 ， 在 示例 10-17 中 ，vCenter 目 录 中 只 有 一 个 datacenter， 它 关联 了 一 个 数字 0， 我 们 可 以 cd 到 0， 而 不 需要 输入 这 个 
datacenter 的 全 名 。 


示例 10-17 ”游览 RVC 


> ls 

0 / 

1 mia-cg07-vc01/ 

> cd 1 

/mia-cg07-vc01> ls 

0 mia-cg07-dc01 (datacenter) 
/mia-cg07-vc01> ed 0 
/mia-cg07-vc01/mia-cg07-dc01> ls 


0 storage/ 

1 computers [host]/ 

2 networks [network]/ 

3 datastores [datastore]/ 
4 vms [vm]/ 


10.3.1 VSAN 命 令 


右 想 学 习 任 何 命令 ， 可 以 输入 <command>-help， 也 可 以 使 用 命令 help 和 help<command-namespace> (例如 help vm 
或 help vm.ip) 来 学 习 更 多 命令 。 因 为 我 们 主要 对 VSAN 感 兴趣 ， 来 看 看 对 VSAN 监 控 和 排 错 到 底 有 哪些 可 用 的 命令 吧 (参见 示 
例 10-18) 。 


示例 10-18 help vsan 


> help vsan 
Namespaces: 
health 

perf 

sizing 
stretchedcluster 


vsanmgmt 


Commands: 

apply license to cluster: Apply license to VSAN 

check limits: Gathers (and checks) counters against limits 

check state: Checks state of VMs and VSAN objects 

clear disks, cache: Clear cached disks information 
cluster change autoclaim: Enable/Disable autoclaim on a VSAN cluster 


cluster change checksum: Enable/Disable VSAN checksum enforcement on a 
cluster 


cluster info: Print VSAN config info about a cluster or hosts 
cluster set default policy: Set default policy on a cluster 
cmmds find: CMMDS Find 

disable vsan on cluster: Disable VSAN on a cluster 


disk object info: Fetch information about all VSAN objects on a given 
physical disk 


disks info: Print physical disk info about a host 
disks stats: Show stats on all disks in VSAN 


enable vsan on cluster: Enable VSAN on a cluster 
enter maintenance mode: Put hosts into maintenance mode 
Choices for vsan-mode: ensureObjectAccessibility, evacuateAllData, noAction 


fix renamed vms: This command can be used to rename some VMs which get 
renamed by the VC in case of storage inaccessibility. It is possible for 
some VMs to get renamed to vmx file path. eg. "/vmfs/volumes/vsanDatastore/ 
foo/foo.vmx". This command will rename this VM to "foo." This is the best 
we can do. This VM may have been named something else but we have no way to 
know. In this best effort command, we simply rename it to the name of its 
config file (without the full path and .vmx extension ofcourse!). 


host claim disks differently: Tags all devices of a certain model as 
certain type of device 


host consume disks: Consumes all eligible disks on a host 
host evacuate data: Evacuate hosts from VSAN cluster 


host exit evacuation: Exit hosts' evacuation, bring them back to VSAN 
cluster as data containers 


host info: Print VSAN info about a host 


host wipe non vsan disk: Wipe disks with partitions other than VSAN 
partitions 


host wipe vsan disks: Wipes content of all VSAN disks on hosts, by default 
wipe all disk groups 


lldpnetmap: Gather LLDP mapping information from a set of hosts 

obj status report: Print component status for objects in the cluster. 
object info: Fetch information about a VSAN object 

object reconfigure: Reconfigure a VSAN object 

observer: Run observer 


observer process statsfile: Analyze an offline observer stats file and 
produce static HTML 


proactive rebalance: Configure proactive rebalance for Virtual SAN 
proactive rebalance info: Retrieve proactive rebalance status for Virtual SAN 


purge inaccessible vswp objects: Search and delete inaccessible vswp 
objects on a virtual SAN cluster. 

VM vswp file is used for memory swapping for running VMs by ESX. In VMware 
virtual SAN a vswp file is stored as a separate virtual SAN object. When 

a vswp object goes inaccessible, memory swapping will not be possible and 
the VM may crash when next time ESX tries to swap the memory for the VM. 
Deleting the inaccessible vswp object will not make thing worse, but it 
will eliminate the possibility for the object to regain accessibility in 
future time if this is just a temporary issue (e.g., due to network failure 
or planned maintenance). 


Due to a known issue in vSphere 5.5, it is possible for Virtual SAN to have 
done incomplete deletions of vswp objects. In such cases, the majority of 
components of such objects were deleted while a minority of components were 
left unavailable (e.g., due to one host being temporarily down at the time 
of deletion). It is then possible for the minority to resurface and present 
itself as an inaccessible object because a minority can never gain quorum. 


Such objects waste space and cause issues for any operations involving data 
evacuations from hosts or disks. This command employs heuristics to detect 
this kind of left-over vswp objects in order to delete them. 


It will not cause data loss by deleting the vswp object. The vswp object 
will be regenerated when the VM is powered on next time. 


reapply vsan vmknic config: Unbinds and rebinds VSAN to its vmknics 


recover spbm: SPBM Recovery 

resync dashboard: Resyncing dashboard 

sScrubber info: Print scrubber info about objects on this host or cluster 
support information: Command to collect vsan support information 
v2 ondisk upgrade: Upgrade a cluster to latest Virtual SAN 

vm object info: Fetch VSAN object information about a VM 

vm perf stats: VM perf stats 

vmdk stats: Print read cache and capacity stats for vmdks. 

Disk Capacity (GB): 

Disk Size: Size of the vmdk 

Used Capacity: MD capacity used by this vmdk 

Data Size: Size of data on this vmdk 

Read Cache (GB): 

Used: RC used by this vmdk 

Reserved: RC reserved by this vmdk 


whatif host failures: Simulates how host failures impact VSAN resource 
usage 


TO See commands in a namespace: help namespace name 
To see detailed help for a command: help namespace name.command, name 
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这 里 显示 的 所 有 命令 都 需要 以 vsan. 开 头 。 因 此 ， 要 运行 enable_vsan_on_cluster， 你 必须 用 命令 
vsan.enable_vsan_on_cluster。 记 得 吗 ? 命令 行 是 可 以 补 完整 的 ， 所 以 每 条 命令 你 都 只 需要 键入 开头 的 几 个 字符 然后 用 Tab 按 
键 来 补 完 剩 下 的 字符 (或 者 显示 符合 你 当前 键入 命令 的 所 有 可 选 命令 ) 。 


当然 ， 还 有 一 组 RVC 命 令 也 是 VSAN 管 理 员 感 兴趣 的 。 这 组 命令 是 SPBM 命 令 集 ， 可 以 用 于 任何 关于 虚拟 机 的 存储 策略 。 示 
例 10-19 显 示 的 是 RVC 中 的 SPBM 命 令 列 表 : 


示例 10-19 help spbm 


> help spbm 

Commands: 

check compliance: Check compliance 

device add disk: Add a hard drive to a virtual machine 

device change storage profile: Change storage profile of a virtual disk 
namespace change storage profile: Change storage profile of VM namespace 


profile apply: Apply a VM Storage Profile. Pushed profile content to 
Storage system 


profile create: Create a VM Storage Profile 
profile delete: Delete a VM Storage Profile 
profile modify: Create a VM Storage Profile 


vm change storage profile: Change storage profile of VM namespace and its 
disks 


TO See commands in a namespace: help namespace. name 


To see detailed help for a command: help namespace name.command name 


稍 后 我 们 会 回来 探讨 SPBM ， 但 现在 我 们 先 来 研究 一 下 RVC 中 的 VSAN 命 令 行 ， 了 解 它们 对 监控 、 排 错 和 解决 VSAN 的 问题 
有 何 帮 助 。 你 必须 用 vsan. 开 头 来 运行 所 有 相关 的 VSAN 命 令 。 


石 要 对 某 个 特定 的 命令 获得 更 


多 的 帮助 ， 只 需要 简单 地 在 完整 的 合 令 前 面 加 上 help 即 可 。 


enable vsan on _ cluster 和 disable vsan on cluster 


这 两 条 命令 如 其 字面 意思 所 说 的 那样 一 一 用 于 启用 或 禁用 群集 上 的 VSAN。 除 此 之 外 唯一 的 方法 就 是 通过 vSphere Web 客 


尸 端 来 完成 ， 你 无 法 用 ESXCLI 实 现 同 样 的 功能 


。 用 ESXCLI 可 以 将 ESXi 主 机 加 入 或 退出 群集 ， 扩 展 VSAN 的 规模 或 是 缩小 之 ， 但 


是 无 法 在 群集 层面 上 局 用 或 禁用 VSAN 服 务 。 如 下 面 的 命令 所 示 (其 中 数字 0 代表 |s 输 出 中 的 0 指 代 的 那个 群集 ) : 


/vcsa-05/Datacenter/computers» ls 


0 Cluster (cluster): cpu 


134 GHz, memory 305 GB 


/vcsa-05/Datacenter/computers» vsan.disable vsan on cluster 0 


ReconfigureComputeResource Cluster: success 


esxi-b-pref.rainpole.com: 
esxi-b-pref.rainpole.com: 
esxi-b-pref.rainpole.com: 


esxi-b-pref.rainpole.com: 


如 果 命 令 成 功 ， 运 行 状态 会 


esxi-b-pref 
esxi-c-scnd. 
esxi-d-scnd. 


esxi-a-pref 


重新 启用 VSAN 同 样 简单 : 


.rainpole 


.rainpole 


变 成 success: 


rainpole. 


rainpole. 


running 


[ 
running [] 
running [] 

[] 


running 


COS SUCCOSS 


com: Success 


com: Success 


"COIL: SuUuCCccoss 


/vcsa-05/Datacenter/computers> vsan.enable_vsan_on_cluster 0 


ReconfigureComputeResource 


esxi-b-pref.rainpole.com: 


esxi-c-scnd.rainpole.com: 


esxi-d-scnd.rainpole.com: 


esxi-a-pref.rainpole.com: 


host info 


大 多 数 情 况 下 ， 导 航 到 你 感 兴趣 的 特定 对 象 是 非 弟 


后 在 命令 中 使 用 主机 的 快捷 数字 ， 


示例 10-20 vsan.host info 


如 示例 10-20 所 示 。 


Cluster: success 
success 
success 
success 


oOluccess 


容易 的 。 要 使 用 vsan.host info 命 令 ， 可 以 先导 航 到 对 象 所 在 的 位 置 ， 然 


/vcsa-05/Datacenter/computers» ls 


0 Cluster (cluster): cpu 134 GHz, memory 305 GB 


/vcsa-05/Datacenter/computers» cd O0 
/vcsa-05/Datacenter/computers/Cluster» ls 
0 hosts/ 


1 resourcePool [Resources]: cpu 134.29/134.29/normal, mem 305.31/305.31/normal 


/vcsa-05/Datacenter/computers/Cluster» cd 0 

/vcsa-05/Datacenter/computers/Cluster/hosts» 
0 esxi-b-pref.rainpole.com (host 
1 esxi-c-scnd.rainpole.com 
COU 2*86*"2 


( 
2 esxi-d-scnd.rainpole.com (host 
( Cpu. Z*8*2 


3 esxi-a-pref.rainpole.com (host 


hi cpu ZG 
Bhostr Cou Z2*"9*24 

) 

) 


ls 
40 
40 


. 40 
.40 


GHz, 
GHz, 
GHz, 
GHz, 


memory 102. 
memory 102. 


memory 102. 


memory 102 


/vcsa-05/Datacenter/computers/Cluster/hosts» vsan.host info 0 
2015-12-29 12:42:01 +0000: Fetching host info from esxi-b-pref.rainpole.com 


(nay take a moment) 

Product: VMware ESXi 6.0.0 build-3329486 
VSAN enabled: yes 

Cluster info: 


Cluster role: agent 


Cluster UUID: 523ldfdb-cfe7-aal3-ccfc-2a49e09e85pbp4 


Node UUID: 56702cdc-d064-d2a5-8457-ecf4bbd58600 


Member UUIDs: ["56703560-1a41-3037-9a8c-ecf4bbd5b260", 


00 GB 
00 GB 
00 GB 


.00 GB 


"56702cdc- 


d064-d2a5-8457-ecf4bbd58600", "56707c8b-3353-d670-c080-ecf4bbd59370", 


"5676978a-6c3d-28fc-9ea2-ecf4bbd69680"] (4) 
Node evacuated: no 
Storage info: 

Auto claim: yes 

Checksum enforced: no 


Disk Mappings: 


SSD: Local ATA Disk (tl10.ATA . — Micron, P420m2DMTFDGAR1T4MAX 
. .0000000014170C1B9A73) - 1304 GB, v3 
MD: Local ATA Disk (naa.500a07510f86d691) - 745 GB, v3 
MD: Local ATA Disk (naa.500a07510f£86d695) - 745 GB, v3 
MD: Local ATA Disk (naa.500a07510f86d69c) - 745 GB, v3 
MD: Local ATA Disk (naa.500a07510f86d69f) - 745 GB, v3 
MD: Local ATA Disk (naa.500a07510f86d6a0) - 745 GB, v3 
MD: Local ATA Disk (naa.500a07510f86d6ba) - 745 GB, v3 
MD: Local ATA Disk (naa.500a07510f86d686) - 745 GB, v3 


FaultDomainInfo: 
Not configured 
NetworkInfo: 
Adapter: vmk2 (172.200.0.22) 


在 这 个 例子 中 ， 我 们 先进 入 主机 文件 夹 然后 运行 命令 ,命令 行 中 使 用 了 数字 0， 它 代表 着 列表 中 的 第 一 台 主 机 esxi-b- 
pref.rainpole.com。 这 人 句 命令 显示 的 是 关于 群集 、 网 络 和 存储 的 综合 信息 ， 从 中 可 以 看 见 群 集 角 色 和 和 成员、 多 个 容量 设备 和 被 
标记 为 SSD 用 于 缓存 的 micron 设 备 之 间 的 磁盘 映 射 关系 ,以 及 在 这 台 主 机 上 用 于 VSAN 流 量 的 VMkernel 适 
息 。 如 果 用 esxcli 命 令 行 的 话 需要 很 多 命令 才能 显示 同样 的 结果 。 看 ，RVC 功 能 的 强大 马上 就 显现 出 来 了 。 


host consume disks 和 host evacuate data 


天 配器 相关 的 网 络 信 


接 下 来 的 命令 用 来 让 VSAN 群 集中 某 台 特定 主机 声明 所 有 未 声明 的 空 的 本 地 硬盘 。 这 通过 host consume disk 命 令 来 实现 。 
显然 ， 这 用 于 在 手工 模式 下 创建 VSAN ; 如 果 VSAN 被 配置 成 自动 模式 ， 空 的 本 地 硬盘 会 自动 声明 。 


host evacuate data 命令 可 以 用 于 在 把 主机 从 群集 中 移 除 乙 前 ， 将 其 上 的 所 有 数据 移动 到 群集 中 的 其 他 主机 上 。 
host wipe vsan disks 和 host wipe non vsan disks 


然而 ， 如 果 你 给 一 台 VSAN 主 机 添加 了 几 块 新 磁盘 ， 但 是 这 些 磁 盘 曾 经 用 于 VSAN 并 具有 分 区 信息 和 历史 数据 ， 你 束 可 以 用 
host wipe vsan _ disks 命 令 来 创建 新 的 干净 的 空白 的 可 以 用 于 VSAN 的 磁盘 。 类 似 地 ， 如 果 这 些 磁 盘 曾 经 被 用 于 非 VSAN 的 其 他 
用 途 ， 而 现在 想 将 其 用 于 VSAN ， 则 可 以 用 host wipe non vsan disks 命 令 。 


cluster info 


下 面 这 条 命令 是 我 们 介绍 的 第 一 条 可 以 提供 VSAN 群 集 的 集中 视图 的 命令 。 要 获取 群集 配置 的 全 景 ， 从 这 条 命令 开始 可 能 是 
最 佳 选 择 。 再 一 次 ， 导 舰 到 RVC 清 单列 表 的 群集 对 象 并 输入 命令 Vsan.cluster_info， 或 者 简单 地 在 运行 命令 时 键入 群集 对 象 的 全 
路 径 即 可 。 这 条 命令 等 同 于 你 到 群集 中 的 每 台 主 机 上 去 运行 vsan.host info 命 令 。 前 面 我 们 说 起 过 vsan.host info 可 以 显示 群 
集 、 主 机 、 磁 盘 和 网 络 信息 ， 现 在 一 条 命令 就 可 以 显示 每 一 台 主 机 的 这 些 信息 。 我 们 不 会 在 下 面 列 举 这 个 4 节点 VSAN 和 群集 中 所 
有 4 台 主 机 的 信息 ， 但 是 从 示例 10-21 中 截取 的 输出 中 你 也 应 该 可 以 略 知 一 二 


示例 10-21 vsan.cluster info 


/vcsa-05/Datacenter/computers» ls 
0 Cluster (cluster): cpu 134 GHz, memory 305 GB 
/vcsa-05/Datacenter/computers» vsan.cluster info 0 


2015-12-29 12:50:04 +0000: Fetching host info from esxi-c-scnd.rainpole.com 
(may take a moment) 


2015-12-29 12:50:04 +0000: Fetching host info from esxi-b-pref.rainpole.com 
(nay take a moment) 


2015-12-29 12:50:04 +0000: Fetching host info from esxi-a-pref.rainpole.com 
(may take a moment) 


2015-12-29 12:50:04 +0000: Fetching host info from esxi-d-scnd.rainpole.com 
(may take a moment) 


Host: esxi-b-pref.rainpole.com 
Product: VMware ESXi 6.0.0 build-3329486 
VSAN enabled: yes 
Cluster info: 
Cluster role: agent 
Cluster UUID: 523ldfdb-cfe7-aal3-ccfc-2a49e09e85b4 
Node UUID: 56702cdàc-d064-d2a5-8457-ecf4bbd58600 


Member UUIDs: ["56703560-1a41-3037-9a8c-ecf4bbd5b260", "56702cdc- 
d064-d2a5-8457-ecf4bbd58600", "56707c8b-3353-d670-c080-ecf4bbd59370", 
"5676978a-6c3d-28fc-9ea2-ecf4bbd69680"] (4) 


Node evacuated: no 


Storage info: 


Auto claim: 


yes 


Checksum enforced: no 


Disk Mappings: 


—  .9000000014170C1B9A73) 
MD: Local ATA Disk 
MD: Local ATA Disk 
MD: Local ATA Disk 
MD: Local ATA Disk 
MD: Local ATA Disk 
MD: Local ATA Disk 
MD: Local ATA Disk 
FaultDomainInfo: 


SSD: Local ATA Disk 


Not configured 
NetworkInfo: 


Adapter: 


Host: 


Product 


esxi-c-scnd.rainpole.com 


vmk2 


(t10.ATA | .. 
—- 1304 GB, v3 


naa. 
.200a07510£864d695) 


naa 


naa. 


naa. 


naa. 


naa. 


( 
( 
( 
(naa. 
( 
( 
( 


500a07510f£8648691) 


500a07510f£86d69c) 
500a07510f£86d69f) 
500a07510£86d6a0) 
500a07510f£86d6ba) 
500a07510f86d686) 


UL TE VZU0D0 227) 


VMware ESXi 6.0.0 build-3329486 
VSAN enabled: yes 


Cluster info: 


Cluster role: ma 


Cluster UUID: 


Node UUID: 


Member UUIDs: 


ster 


145 
7145 
145 
17145 
145 
145 
145 


523ldfdb-cfe7-aal3-ccfc-2a49e09e85b4 


56703560-1a41-3037-9a8c-ecf4bbd5b260 


d064-d2a5-8457-ecf4bbd58600", 
"5676978a-6c3d-28fc-9ea2-ecf4bbd69680"] (4) 


Node evacuated: no 


Storage info: 


Auto claim: yes 


Checksum enforced: no 


Disk Mappings: 


SSD: Local ATA Disk 
0000000014170C1BA941) 


MD: Local ATA 
MD: Local ATA 
MD: Local ATA 
MD: Local ATA 
MD: Local ATA 
MD: Local ATA 
MD: Local ATA 
FaultDomainInfo: 


Not configured 


NetworkInfo: 


Adapter: 


这 里 你 可 以 再 次 看 见 群集 角色 和 成 员 、 显 示 了 容量 设备 和 缓 仔 设 备 之 间 的 磁盘 映射 关系， 以 及 在 这 人 台 主 机 上 用 于 VSAN 


vmk2 


Disk 
Disk 
Disk 
Disk 
Disk 
Disk 
Disk 


(t10.ATA — 
- 1304 GB, v3 


(naa. 
(naa. 
(naa. 
(naa. 
(naa. 
(naa. 


(naa. 


GB, 
GB, 
GB, 
GB, 
GB, 
GB, 
GB, 


["56703560-1a41-3037-9a8c-ecf4bbd5b260", 


Micron P420m2DMTFDGARIT4MAX 


v3 
v3 
v3 
v3 
v3 
v3 
v3 


"56702cdc- 


"56707c8b-3353-d670-c080-ecf4bbd59370", 


500a07510f86d6cf) 
500a07510f£86d69d) 
500a07510f£86d6ab) 
500a07510f£86d653) 
500a07510f£86d65b4) 
500a07510f86d6bb) 
500a07510f£86d6c5) 


LL 56 2004:0423)] 


745 
745 
745 
745 
145 
7145 
745 


GB, 
GB, 
GB, 
GB, 
GB, 
GB, 
GB, 


Micron_P420m2DMTFDGAR1T4MAX 


v3 
v3 
v3 
v3 
v3 
v3 
v3 
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disks.info 


MN EA 
流量 





如 前 所 述 ，VSAN 只 会 目 动 声明 那些 本 地 的 空 日 的 〈 换 而 言 乙 不 仓 企 分 区 表 的 ) 磁盘 。 如 果 你 友 现 VSAN 由 于 某 些 原因 没有 
瑞明 一 块 磁盘 ，disks.info 是 一 条 很 好 的 依 令 ， 可 以 用 来 检查 为 什么 无 法 声 明 磁盘 。 这 条 命令 可 以 显示 磁盘 是 售 已 经 仆 VSAN 使 
用 、 是 否 可 和 被 VSAN 利 用 ， 或 是 人 否 不 符合 条 件 无 法 役 VSAN 使 用 。 通 弟 来 襄 ， 如 果 磁 盘 不 符合 条 件 ， 例 如 已 分 过 区 ，disks.info 会 
显示 出 分 区 信息 。 输 出 结果 可 能 会 相当 长 ， 这 是 因为 要 显示 某 些 磁盘 标识 符 或 这 些 磁盘 在 某 些 情况 下 的 状态 ， 因 此 我 们 在 本 书 中 
就 不 列 出 这 条 命令 的 输出 结果 了 。 


cluster set default policy 


本 书 前 面 已 经 非常 深入 地 讨论 过 默认 策略 的 细节 。 在 前 面 ESXCLI 的 章节 ， 我 们 事实 上 已 经 介绍 过 默认 策略 设置 的 一 些 命 
令 。 你 或 许 还 记得 我 们 说 过 如 果 要 用 ESXCLI 命 令 行 方 式 来 更 改 上 默认 策略 ， 你 必须 到 每 从 主机 上 一 人 台 一 台地 修改 。 好 吧 ， 现 在 这 
条 命令 可 以 让 我 们 一 次 性 地 将 群集 中 所 有 主机 上 的 默认 策略 都 修改 掉 。 假 设 默认 策略 没 能 满足 你 的 要 求 ， 或 许 你 希望 默认 策略 具 
有 一 个 更 高 数值 的 允许 的 故障 数 ， 又 或 者 希望 条 市 宽度 更 大 ， 又 或许 你 希望 在 默认 策略 中 预 留 一 些 读 取 缓 仓 ， 在 这 些 场合 下 ， 你 
可 以 使 用 cluster_set_default_policy 命 令 。 首 先 ， 你 需要 创建 一 个 希望 当成 默认 策略 的 策略 。 这 可 以 在 使 用 策略 的 任何 虚拟 机 的 
vmprofiles 文 件 夹 下 获得 (配置 文件 [profiles] 是 策略 [policy] 先 前 的 名 称 ) ， 然 后 你 可 以 通过 cluster set default_policy 命 令 指 
回 那 个 策略 ， 将 那 条 策略 变 成 新 的 默认 策略 ， 并 用 于 没有 特别 指定 虚拟 机 存储 策略 的 任何 虚拟 机 。 


除了 以 上 说 过 的 这 些 方法 ， 当 部 署 一 台新 的 虚拟 机 的 时 候 ， 现 在 还 可 以 在 用 户 界 面 里 定义 默认 策略 。 只 需要 在 Web 客 户 端 
中 导航 到 数据 仓储 ， 选 择 VSAN 数 据 仓储， 选择 Actions (动作 ) 并 选择 “Change Default Storage Policy" (更 改 默认 存储 策 
BE) ， 如 图 10-14 所 示 。 这 种 方法 比 通过 ESXCLI 或 RVC 来 更 改 默 认 策 略 要 简单 得 多 。 
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All vRealize Orchestrator plugin Actions +» 


图 10-14 更改 VSAN 数 据 存储 的 默认 存储 策略 


object reconfigure 


你 可 以 对 现 已 存在 的 VSAN 对 象 使 用 RVC 命 令 vsan.object_reconfigure 来 改变 当前 的 虚拟 机 存储 策略 并 分 配给 它们 一 个 新 的 
策略 。 如 果 你 觉得 有 必要 给 基 个 特殊 的 对 象 增加 人 允许 的 故障 数 或 增 大 条 带宽 度 ， 这 条 命令 可 以 帮 有 到 你 。 


object info, disk object infof[]|vm object info 


jx RV CB S Ek BIEN CT ERRER LEIREBEX, SBRISEZRERASHOUASBUIEAMABUASERA DDERI. Bt 
EAERI R. iL9fl]JAÀvm object infos vete, BI7JvEX3T8SrHHBEEREMGAEUGUE. ARRS, BUS 
到 某 一 台 虚 拟 机 并 将 该 虚拟 机 作为 命令 参数 。 示 例 10-22 中 ， 我 们 选择 了 一 台 只 含有 单 侣 虚拟 机 的 主机 并 对 其 使 用 该 命令 。 然 后 
RVC 会 检查 群集 中 所 有 的 ESXi 主 机 来 找 出 哪 台 ESXI 主 机 含有 与 此 虚拟 机 相关 的 对 象 。 此 时 此 刻 ， 你 应 该 很 清楚 这 样 一 个 事实 : 
VSAN 很 可 能 不 会 把 虚拟 机 的 存储 对 象 和 虚拟 机 的 计算 资源 放 在 同一 台 主 机 上 。 事 实 上 ， 虚 拟 机 存储 对 象 ( 包 括 副 本 ) 很 可 能 位 
于 和 其 计算 资源 所 处 的 主机 完全 不 同 的 群集 中 的 一 台 主 机 上 。 


示例 10-22 vsan.vm object info 


/vcsa-05/Datacenter/computers/Cluster/hosts/esxi-c-scnd.rainpole.com/vms» 
vsan.vm object info O0 


2015-12-29 13:01:08 +0000: Done fetching VSAN disk infos 
VM R5: 
Namespace directory 


DOM Object: 5ff87756-cdf2-9aa0-05f0-ecf4bbd5b260 (v4, owner: 
esxi-c-scnd.rainpole.com, policy: spbmProfileGenerationNumber = 0, 
hostFailuresToTolerate = 1, spbmProfileId = le65d4c4-40d89-4518-a5dl- 
cfle78505258, proportionalCapacity = [0, 100], replicaPreference = 
Capacity, stripeWidth - 1) 

RAID 5 


Component: 5ff87756-403e-0cal-38af-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-c-scnd.rainpole.com, md: naa.500a07510f86d6c5, ssd: t10.ATA 
Micron P420m2DMTFDGARITA4MAX 0000000014170C1BA941, votes: 2, 
usage: 0.1 GB) 


Component: 5ff87756-f326-0dal-bab6-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-a-pref.rainpole.com, md: naa.500a07510f864d693, ssd: 七 10 .ATA 
Micron P420m2DMTFDGARIT4MAX 0000000014080C116FB2, votes: 1, 
usage: 0.1 GB) 

Component: 5ff87756-49be-0dal-d3a3-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-d-scnd.rainpole.com, md: naa.500a07510f86d6bf, ssd: 七 10 .ATA 
Micron P420m2DMTFDGARI1TAMAX 0000000014170ClB9A6E, votes: 1, 
usage: 0.1 GB) 

Component: 5ff87756-c93a-0eal-5e8e-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-b-pref.rainpole.com, md: naa.500a07510f86d686, ssd: t10.ATA 
Micron P420m2DMTFDGARI1T4MAX 0000000014170C1B9A73, votes: 1, 
usage: 0.1 GB) 


Disk backing: [vsanDatatore] 5ff87756-cdf2-9aa0-05f0-ecf4bbd5b260/R5.vmdk 


DOM Object: 61f£87756-db3c-6a7b-5c87-ecf4bbd5b260 (v4, owner: 
esxi-c-scnd.rainpole.com, policy: spbmProfileGenerationNumber = 0, 
hostFailuresToTolerate = 1, spbmProfileId = 1le65d4c4-40d9-4518-a5d1l- 
Cfle78505258, replicaPreference - Capacity) 


RAID 5 


Component: 61£87756-53e6-177c-0a5d-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-c-scnd.rainpole.com, md: naa.500a07510f86d6cf, ssd: t10.ATA 
Micron P420m2DMTFDGARIT4MAX 0000000014170C1BA941, votes: 

2, usage: 0.0 GB) 


Component: 61f87756-9230-197c-8275-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-b-pref.rainpole.com, md: naa.500a07510f86d69f, ssd: 七 10 .ATA 
Micron, P420m2DMTFDGAR1T4MAX 0000000014170C1B9A73, votes: 


1, usage: 0.0 GB) 


Component: 61f87756-0856-1a7c-lede-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-d-scnd.rainpole.com, md: naa.500a07510f86d6af, ssd: tl10.ATA 
Micron P420m2DMTFDGAR1T4MAX 0000000014170C1B9A6E, votes: 

1, usage: 0.0 GB) 


Component: 61f87756-f58b-1b7c-7696-ecf4bbd5b260 (state: ACTIVE (5), 
host: esxi-a-pref.rainpole.com, md: naa.500a07510f86d6b8, ssd: tl10.ATA 
Micron P420m2DMTFDGAR1TAMAX 0000000014080C116FB2, votes: 

1, usage: 0.0 GB) 


前 面 的 输出 结果 中 列 出 了 2 个 虚拟 机 对 象 : 虚拟 机 主页 名 字 空 间 目 录 和 虚拟 机 磁盘 /VMDK。 这 2 个 存储 对 象 都 具备 RAID-5 副 
本 配置 ， 说 明 它 们 策略 中 配置 的 允许 的 故障 数 为 1 但 是 在 replicaPreference 设 置 上 选择 了 Capacity (容量 ) 而 不 是 
Performance (性 能 ) 。 这 个 结论 可 以 通过 查看 每 个 对 象 的 DOM 对 象 那 一 行 来 进行 验证 ， 它 明确 地 显示 出 了 策略 设置 。 没 错 ， 
我 们 确实 可 以 看 见 这 两 者 的 允许 的 故障 数 都 设 成 了 1。 虽 然 这 个 描述 符 襄 的 是 允许 的 主机 故障 (hostFailuresToTolerate) , © 
其 实 也 涵盖 了 其 他 组 件 例如 磁盘 和 网 络 。 


当然 ， 这 个 输出 结果 中 最 有 用 的 部 分 可 能 还 是 这 些 组 件 存放 在 哪里 的 具体 位 置信 息 。 你 可 以 看 见 主 机 、 容 量 盘 ID 和 磁盘 组 


中 作为 缓 仔 的 SSD 的 ID。 而 且 ， 你 最 终 还 可 以 看 见 这 些 组 件 是 否 健康 。 在 这 个 例子 中 ， 所 有 组 件 都 显示 为 Active (活动 ) 状态 ， 
也 丈 是 正常 的 。 


如 果 这 是 一 个 RAID-1 配 置 ， 我 们 还 可 以 获得 见证 组 件 的 信息 。 在 本 书 的 这 个 阶段 本 该 无 须 再 多 作 和 解释 ， 只 需要 知道 它们 在 
故障 友 生 的 时 候 起 了 很 重要 的 作用 丈 可 以 了 。 当 群集 发 生 故 障 时 ， 它 们 参与 到 投票 中 ， 使 得 存储 对 象 可 以 满足 超过 半数 的 要 求 并 
保持 继续 可 用 。RAID-5 和 RAID-6 配 置 不 需要 见证 。 


现在 我 们 已 经 检查 过 了 关联 到 虚拟 机 的 对 象 的 信息 ， 有 时 候 也 需要 知道 哪些 对 象 /组 件 实 际 上 位 于 哪 块 物理 磁盘 上 。 这 就 
disk_object_info 命 令 友 挥 用 处 的 时 候 了 。 通 过 这 条 命令 ， 可 以 显示 被 VSAN 声 明 的 物理 磁盘 里 面 的 内 容 并 让 RVC 显 示 出 这 块 磁 
盘 中 的 组 件 。 这 条 命令 是 针对 群集 友 起 的 ， 不 过 要 求 提 供 磁 盘 标 识 符 作为 额外 的 参数 。 这 个 参数 很 容易 获取 ， 前 面 的 
vm_object_info 命 令 融 已 经 提供 了 这 个 信息 ， 你 也 可 以 通过 ESXCLI 或 vSphere 用 户 图 形 界面 来 获得 。 如 果 我 们 使 用 了 从 前 面 的 
命令 中 获得 的 容量 设备 的 NAA ID， 融 可 以 显示 出 该 磁盘 驱动 器 上 的 所 有 对 象 和 组 件 。 


Ld 


还 有 ， 这 是 另 一 条 提供 了 很 多 有 用 信息 的 命令 。 在 这 个 例子 中 ， 我 们 切换 到 了 另 一 个 不 同 的 VSAN 群 集 来 显示 输出 的 多 样 
性 。 显 示 在 图 10-15 中 的 这 个 命令 的 输出 由 于 可 读 性 的 原因 已 经 做 了 删节 ， 这 次 我 们 留 下 了 “DOM Objects" : 


这 个 输出 结果 的 美妙 之 处 在 于 它 显示 出 了 对 象 及 其 上 下 级 关系 ， 换 而 言 之 ， 你 可 以 知道 特定 组 件 是 哪个 虚拟 机 存储 对 象 的 一 
部 分 。 不 仅 如 此 ， 它 还 能 显示 组 成 那个 存储 对 象 的 其 他 组 件 ， 以 及 这 些 其 他 组 件 在 VSAN 群 集中 的 位 置 。 它 还 通过 把 * 放 置 在 磁 
盘 标 识 得 的 前 面 和 后 面 ， 将 其 突出 显示 出 来 。 这 个 磁盘 标识 符 束 是 我 们 提供 给 前 面 的 命令 作为 参数 使 用 的 。 


从 这 个 输出 结果 中 我 们 可 以 推导 出 这 块 我 们 感 兴 趣 的 磁盘 包含 相当 多 的 组 件 。 其 中 一 些 组 件 是 虚拟 机 磁盘 /VMDK 的 一 部 
其 他 组 件 则 用 来 组 成 虚拟 机 的 名 字 空 间 目录 ， 另 一 些 则 可 能 是 虚拟 机 交换 文件 的 一 部 分 。 这 个 输出 结果 对 于 排 错 极为 有 用 |， 
因为 它 可 以 让 你 看 见 磁盘 上 组 件 的 状态 。 这 个 输出 结果 中 所 有 的 组 件 都 显示 为 好 的 、 正 弟 的 和 活动 的 状态 。 


/localhost/ie-dalacenter-01/computers» ls 


0 ie-vsan-cluster-01 (cluster): cpu 109 GHz, memory 331 GB 
/localhost/ie-datacenter-Ül/computers» vsan.disk object info 0 naa.600508b1001c36662525d1d217c882f87 
2014-03-14 11:37:57 +0000: Fetching VSAN disk info from hosts (may take a moment) ... 
2014-03-14 11:38:00 +0000: Done fetching VSAN disk infos 
Physical disk naa.600508b1001c3662525d1d217c882f£87 (525a5dee-1f35-b3b5-cac9-c55d047ea601): 
DOM Object: 16782053-64de-7b11-a685-001517a69c72 (owner: 10.27.51.2, policy: hostFailuresToTolerate = 1, proportionalCapacity = 

100) 

Context: Part of VM ie-vdpa-01: Disk: [vsanDatastore] 2e742053-2895-3151-e630-001517a69c72/ie-vdpa-01 2.vmdk 

Witness: 17782053-0097-fb35-a525-001517a69c72 (state: ACTIVE (5), host: 10.27.51.2, md: naa.600508bi1001cdb46f505bf98eef9e9bp4, 
ssd: eui.c6Bel5lfedBa4fcf0024712c7cc444fe) 


Witness: 17782053-9cO0b-fa35-cf2a-001517a69c72 (state: ACTIVE (5), host: 10.27.51.2, md: 
**naa.600508b1001c3662525d1d217cBB2f£87**, ssd: eui.c6Bel51fed8a4fcf0024712c7cc444fe) 


Witness: 17782053-2abf-fa35-44b9-001517a69c72 (state: ACTIVE (5), host: 10.27.51.4, md: naa.600508b1001c8119ca0ab3a6fe0d2b19, 
ssd: eui.al5eb52c6f£4043b5002471c7886acfaa) 
RAID 1 
RAID 0 
Component: 17782053-b020-f935-eb15-001517a69c72 (state: ACTIVE (5), host: 
.600508b1001c784579103bf9baf41797, ssd: eui.dlef5a5bbeB64e27002471febdec3592) 
Component: 17782053-744b-f835-a4ca-001517a69c72 (state: ACTIVE (5), host: 
.600508b1001c034feb6f£f£0871dbl3c4b, ssd: eui.dlef5a5bbeB64e27002471febdec3592) 
RAID 0 
Component: 17782053-2a68-f£735-e951-001517a69c72 (state: ACTIVE (5), host: 
.600508b1001c1380cc97bc5345465552, ssd: eui.al5eb52c6£4043b5002471c78B86acfaa) 


Component: 17782053-b807-f635-1568-001517a69c72 (state: ACTIVE (5), host: 
.600508b1001cdb46f505bf98eef9e9b4, ssd: eui.c68el5lfedBa4fcf0024712c7cc444fe) 








图 10-15 ”vsan.disk_object_info 的 输出 结果 


接 下 来 最 后 要 介绍 的 是 object_info 命 令 。 它 现在 使 用 真实 的 VSAN 对 象 标识 符 来 显示 存储 对 象 的 状态 。 因 此 ， 无 须 查看 隶属 
于 一 台 虚 拟 机 的 所 有 对 象 , 或 是 某 块 磁盘 上 的 所 有 组 件 ， 我 们 也 可 以 直接 查看 群集 中 的 单个 存储 对 象 的 详细 信息 了 ， 无 论 这 是 一 
个 名 字 空 间 目 录 还 是 一 块 虚拟 机 磁盘 。 这 对 于 追 踩 有 个 特定 对 象 的 状态 非 党 有用， 盛 其 是 从 日 志文 件 显示 的 相 天 消息 中 获得 了 一 
个 对 象 [D， 而 你 又 无 法 确定 这 个 对 象 属于 哪个 虚拟 机 或 哪个 磁盘 时 。 在 图 10-16 的 例子 中 ， 我 们 选择 了 一 块 虚拟 机 磁盘 的 ID， 并 
运行 了 下 面 的 命令 ,命令 中 用 到 了 群集 和 和 对象 1D 作 为 参数 。 


/localhost/ie-datacenter-01/computers» vsan.object info 0 d4502253-e8ld-00b8-6351-0010185def78 
DOM Object: d4502253-e81d-00b8-6351-0010185def78 (owner: 10.27.51.3, policy: hostFailuresToTolerate = 1, proportionalCapacity = [0, 100]) 


Witness: d5502253-10e6-321a-656d-0010185def78 (state: ACTIVE (5), host: 10.27.51.1, md: naa.600508b1001c530aff02e0c5c7971eld, ssd: 
eui.48f8681115d6416c00247172ce4d*f168) 


RAID 1 
Component: d5502253-3461-321a-d275-0010185def78 (state: ACTIVE (5), host: 10.27.51.3, md: naa.600508b1001c034feb6ff0871db13c4b, ssd: 
eui.dlef5a5Dpbpe864e27002471febdec3592) 


Component: d5502253-bp00pb-3lla-ff45-0010185def78 (state: ACTIVE (5), host: 10.27.51.2, md: naa.600508b1001c3662525d1d217cBB2f87, ssd: 
eui.c68el5lfed8a4f£cf0024712c7cc444fe) 


Extended attributes: 
Address space: 43285303296B (40.31 GB) 
Object class: vdisk 
Object path: /vmfs/volumes/vsan:524ed5e9ee7750654-b7895b553dcad7c5e/c2cd2153-24a4-45a5-b0a1-001517a69c72/hbrdisk.RDID-7b82ee6b-b12e-4364-D72c- 
c0ba2a4101d0.12.61153313595688.vmdk 





图 10-16 ”vsan.object_info 的 输出 结果 


这 给 了 我 们 一 个 组 成 此 对 象 的 不 错 的 详细 视图 。 我 们 发 现 它 带 有 RAID-1 配 置 和 2 个 组 件 ， 说 明 它 的 策略 设置 中 包含 允许 的 故 
障 数 为 1。 所 有 这 些 可 以 在 输出 结果 中 DOM Object 这 一 行 得 到 验证 一 一 包括 hostFailuresToTolerate=1。 我 们 还 可 以 发 现 对 象 
类 型 是 vdisk， 说 明 这 是 一 块 虚拟 机 磁盘 (VMDK) 。 再 一 次 ， 这 条 命令 显示 了 关于 每 个 组 件 的 有 用 位 置信 息 以 及 所 有 组 件 都 处 
于 良好 的 Active (活动 ) 状态 的 信息 。 


通过 使 用 object_info 命 令 ， 管 理 员 应 该 可 以 追 路 到 每 个 不 同 的 存储 对 象 都 属于 群集 中 的 哪个 虚拟 机 ， 并 验证 它们 是 否 处 于 
良好 的 工作 状态 。 如 果 友 生 了 问题 ， 需 要 管理 员 来 找 出 组 件 并 进行 诊断 和 排 错 ， 这 些 命令 是 无 价 之 宝 。 


cmmds find 


cmmds _find 命 令 极为 有 用 ， 尤 其 是 当 一 人 台 ESXi 主 机 贴 出 了 一 条 报错 信息 ， 其 中 市 有 一 个 特定 VSAN 对 象 的 ID 时 ， 你 可 以 用 
这 条 命令 来 找 出 这 个 对 象 完 葛 和 谁 相 天 。vsan.cmmds_find (cmmds 指 群集 、 监 控 、 成 员 和 目录 服务 ) 命令 可 用 于 显示 VSAN 
群集 中 某 个 特定 对 象 的 信息 。 


cmmds find-t DISK USAGE 


要 显示 群集 中 磁盘 使 用 率 的 信息 时 可 以 用 这 个 选项 。 其 中 最 重要 的 结果 是 Health 这 一 列 ， 它 将 直接 告诉 你 磁盘 是 否 处 于 不 
健康 状态 。 如 图 10-17 所 示 。 


cmmds find-t DISK 


-t DISK 选 项 相当 有 用 ， 因 为 它 会 显示 群集 中 所 有 硬盘 的 详细 人 信息。 显示 结果 中 的 Content 列 市 有 一 些 有 趣 的 属性 ， 包 括 容 
量 以 及 硬盘 是 否 是 一 块 SSD (isSsd) 。 


cmmds find-u UUID 
-UUUID 选 项 使 得 管理 员 可 以 获得 特定 组 件 的 更 详细 的 信息 。 


从 前 面 的 输出 中 可 以 看 出 ， 还 有 不 少 其 他 的 类 型 ， 包 括 HEALTH_STATUS 和 DISK_STATUS。 这 些 都 可 以 通过 --t 选 项 传递 给 


vsan.cmmds find 命 令 。 


我 们 仅仅 只 是 稍微 介绍 了 一 下 这 条 命令 的 皮毛 ， 用 多 了 以 后 你 就 会 注意 这 条 命令 非常 像 ESXCLI 里 面 的 cmmds-tool 命 令 。 没 
音 ， 很 多 cmmds-tool find 的 选项 也 可 以 用 于 这 条 命令 。 


fix renamed vms 


XF fix renamed vms 命 令 没 有 太 多 可 以 解释 的 。 如 其 字面 意思 那样 ，vCenter Server 可 以 对 某 些 虚 拟 机 改名 。 如 果 不 管 
因为 什么 原因 无 法 访问 VSAN 数 据 仓储 ， 会 导致 某 些 虚拟 机 的 名 字 变 成 很 长 的 路 径 名 ， 并 在 vSphere Web 客 户 新 中 显示 成 虚拟 


机 的 名 字 一 一 这 对 用 户 非 钊 不 友好 。 这 条 命令 可 以 将 这 些 虚 拟 机 从 长 的 路 径 名 更 改 为 较 短 的 适合 理解 的 名 字 。 


obj status report 


obj_status_report 是 一 条 不 错 的 命令 ， 它 可 以 用 来 验证 群集 中 所 有 对 象 和 组 件 是 否 正 常 、 健 康 有 目 没有 对 象 或 组 件 被 孤立 


(也 就 是 没有 和 虚拟 机 相关 联 ) 。 


/localhost/vsphere5.5-ul» vsan.cmmds find -/computers/vsphere5.5-u1/ -t DISK USAGE 


| 1 | DISK USAGE | 52777432-£127-f£001-d081-800a04cafbÜ0e | 10.27. 


| 2 | DISK USAGE | 5214bla5-b6D1-3a3a-fBb6-ee4ecc7aB8dÜ0e | 10.27. 


| 3 | DISK USAGE | 5269ded0-91a2-49B86-4d5e-e946d252730f | 10.27. 


| 4 | DISK USAGE | 52f£226e9-7664-34al-b6be-3f27c4d2671e | 10.27. 


| 5 | DISK USAGE | 5251dfbe-2106-16ca-e6eb-cB3B9a7eepdd | 10.27. 


| 6 | DISK USAGE | 52de5de0-ff71-02fa-b671-55Babd3280el | 10.27. 


51. 


51. 


51. 


51. 


51. 


一 一 一 一 一 一 一 一 一 *——————————————————————————————-—-— 


Health 


| 


Content 
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Healthy 


Healthy 


Healthy 


Healthy 
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{"capacityReserved"=>18874368, 
"iopsReserved"=>0, 
"throughPutReserved"=>0, 
"l2CacheReserved"=>0, 
"llCacheReserved"=>0} 

{"capacityReserved"=>0, 
"iopsReserved"=>0, 
"throughnPutReserved"=>0, 
"l2CacheReserved"=>0, 
"llCacheReserved"=>0} 

{"capacityReserved"=>14680064, 
"iopsReserved"-»0, 
"throughPutReserved"s»D, 
"l2CacheReserved"-»0, 
"llCacheReserved"-»0) 

("capacityReserved"2»7509901312, 
"iopsReserved"-»0, 
"throughPutReserved"s»D, 
"l2CacheReserved"-»0, 
"llCacheReserved"-»0) 

("capacityReserved"-s»0, 
"iopsReserved"-»0, 
"throughPutReserved"-»0, 
"l2CacheReserved"-»0, 
"llCacheReserved"-s»0)] 

("capacityReserved"2»25165B24, 
"iopsReserved"-»0, 
"throughPutReserved"s»D0, 
"l2CacheReserved"-»0, 


"llCacheReserved"-»0] 





一 一 一 一 一 一 一 一 一 并 一 一 一 一 一 一 一 mm 





图 10-17 


obj status _ report 命令 行 也 是 针对 群集 运行 的 。 其 输出 结果 ( 见 示 例 10-23) 分 为 2 


cmmds find - t DISK USAGE 


立 RLN - 
^a JJ. 


首先 显示 的 是 非 碧 立 的 对 象 ， 


第 2 部 分 显示 孤立 对 象 。 它 也 用 来 验证 组 件 是 否 处 于 健康 状态 (也 残 是 可 以 在 输出 结果 中 观察 到 Active 状 态 ) 。 


示例 10-23  vsan.obj status report 的 输出 结果 


/mia-cg07-vc01/mia-cg07-dcO0l/computers» vsan.obj status report 0 
2014-02-08 12:52:25 +0000: Querying all VMs on VSAN ... 

2014-02-08 12:52:25 +0000: Querying all objects in the system ... 
2014-02-08 12:52:26 +0000: Querying all disks in the system ... 
2014-02-08 12:52:26 +0000: Querying all components in the system ... 


2014-02-08 12:52:27 +0000: Got all the info, computing table ... 


Histogram of component health for non-orphaned objects 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


| Num Healthy Comps / Total Num Comps | Num objects with such status | 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| 7/7 i 

| 
| 3/3 | 7 

| 
| 545 | 2 

| 
4q------------------------------------- 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


Total non-orphans: 10 


Histogram of component health for possibly orphaned objects 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


| Num Healthy Comps / Total Num Comps | Num objects with such status | 


Total orphans: O0 


这 条 命令 的 输出 结果 中 需要 天 注 的 是 那些 处 于 不 健康 状况 中 的 非 孤 立 对 象 和 任何 孤立 对 象 。 这 两 者 需要 进一步 诊断 排 错 来 判 
新 为 什么 它们 不 健康 ， 对 于 王立 对 象 来 员 ， 如 何 才能 清理 擅 它 们 。 


check state 


check state 是 条 非常 棒 的 命令 ， 可 以 用 来 获取 VSAN 环 境 的 全 景 信 息 。 它 带 有 很 多 基础 功能 : 可 以 用 来 检查 并 确保 所 有 
VSAN 对 象 是 可 访问 的 ， 可 以 用 来 检查 并 确保 所 有 虚拟 机 都 是 健康 且 可 访问 的 ， 还 可 以 检查 在 VSAN 群 集中 部 署 的 所 有 虚拟 机 是 
否 保持 同步 (无论 是 从 ESXi 主 机 角度 还 是 vCenter Server 角 度 来 看 ) 。 运 行 此 命令 时 遇 到 的 任何 异常 情况 都 会 被 报告 出 来 。 


/mia-cg07-vc0l/mia-cg07-dcO0l/computers» vsan.check state 0 
2014-02-08 13:00:19 +0000: Step 1: Check for inaccessible VSAN objects 


Detected 0 objects to not be inaccessible 


2014-02-08 13:00:20 +0000: Step 2: Check for invalid/inaccessible VMs 


2014-02-08 13:00:20 +0000: Step 3: Check for VMs for which VC/hostd/vmx are 
out of sync 


Did not find VMs for which VC/hostd/vmx are out of sync 


强烈 建议 经 常 且 定期 地 (或 许 作 为 维护 周期 任务 之 一 ) 运行 这 条 命令 ， 这 将 保证 任何 异常 情况 都 会 尽早 被 捕获 到 。 
这 条 命令 还 带 有 一 个 非常 有 用 的 参数 ， 可 用 来 重新 连接 孤立 虚拟 机 : --refresh-state， 如 示例 10-24 所 示 : 


示例 10-24 vsan.check state-refresh-state 0 的 输出 结果 


/mia-cg07-vc01/mia-cg07-dc01/computers> vsan.check state --refresh-state 0 
2014-04-30 21:19:18 +0000: Step 1: Check for inaccessible VSAN objects 


2014-04-30 21:19:18 +0000: Step 1b: Check for inaccessible VSAN objects, 
again2014-04-30 21:19:19 +0000: Step 2: Check for invalid/inaccessible VMs 


Detected VM "'ie-vdpa-0Ol1' as being 'orphaned', reloading ... 
reloadVirtualMachineFromPath ie-vdpa-01: success 


2014-04-30 21:19:23 +0000: Step 2b: Check for invalid/inaccessible VMs 
again 

2014-04-30 21:19:23 +0000: Step 3: Check for VMs for which VC/hostd/vmx are 
out of sync 


Did not find VMs for which VC/hostd/vmx are out of sync 


whatif host failures, disk stats 和 vm_ perf stats 


接 下 来 我 们 要 介绍 一 些 统计 和 指标 类 的 命令 。 就 像 前 面 提 过 的 object_info 命 令 一 样 ， 对 于 主机 、 磁 盘 和 虚拟 机 还 有 一 些 统 
计 信 息 的 命令 。 让 我 们 从 whatif_host_failures 命 令 开 始 。 这 是 一 条 非常 有 用 的 命令 ， 它 不 仪 仅 在 输出 结果 中 显示 出 了 当前 的 存 
储 容量 配置 ( 指 HDD 或 硬盘 驱动 器 也 指 全 闪存 配置 中 的 容量 设备 ) ， 还 会 显示 出 如 果 和 群集 中 的 单 台 主 机 友 生 故障 会 友 生 些 什么 
状况 。 在 示例 10-25 中 ， 我 们 先导 航 到 清单 中 的 群集 对 象 ， 然 后 在 那里 运行 vsan.whatif host failures 命 令 ， 并 使 用 整个 群集 作 


为 (命令 的 ) 参数 。 


示例 10-25 vsan.whatif host failures 


/vcsa-05.rainpole.com/Datacenter/computers» ls 
0 Cluster (cluster): cpu 134 GHz, memory 306 GB 
/vcsa-05.rainpole.com/Datacenter/computers» vsan.whatif host failures O0 


Simulating 1 host failures: 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
Resource | Usage right now | Usage after failure/re-protection | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
HDD capacity | 1$ used (18402.90 GB free) | 2$ used (13738.44 GB free) | 
Components | 0% used (35997 available) | 0$ used (26997 available) | 
RC reservations | 0% used (0.00 GB free) | 0$ used (0.00 GB free) | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


/vcsa-05.rainpole.com/Datacenter/computers» 


如 同 这 条 命令 的 输出 结果 中 说 的 那样 ， 模 拟 一 台 主 机 故障 背后 的 原因 是 为 了 检查 一 旦 友 生 故障 时 ， 如 果 要 重建 虚拟 机 存储 对 
象 以 满足 策略 要 求 ， 是 否 会 友 生 任何 灰 盘 驱 动 器 容量 不 足 的 情况 。 这 是 条 非常 有 用 的 命令 ， 可 用 来 判断 VSAN 在 友 生 一 个 故障 时 


是 否 能 继续 满足 对 虚拟 机 的 可 用 性 要 求 。 它 对 于 容量 规划 也 是 非常 有 用 的 ， 因 为 如 果 一 台 主 机 故障 意味 着 策略 合 规 性 不 再 能 满 
足 ， 那 么 再 友 生 一 个 故障 就 可 能 导致 虚拟 机 不 可 用 。 这 个 故障 可 能 是 一 个 主机 、 磁 盘 或 网 络 故 障 。 


在 前 面 的 输出 结果 中 ， 群 集中 有 4 人 台 主 机 ， 但 是 这 个 群集 的 利用 率 非 党 低 ， 所 以 一 台 主 机 的 故障 对 虚拟 机 存储 对 象 所 需 占 用 


的 磁盘 空间 容量 的 影响 是 非常 小 的 ， 甚 至 可 以 忽略 不 计 。 在 这 个 群集 上 距离 填 满 磁 盘 空 间 还 很 远 呢 。 


接 下 来 我 们 看 看 vsan.disks_stats 命 令 。 这 条 命令 基本 上 是 用 来 告诉 你 从 对 象 的 角度 来 看 群集 在 磁盘 之 间 的 负载 均衡 好 不 
好 。 它 也 可 以 显示 关于 可 用 磁盘 空间 和 已 消耗 的 磁盘 空间 的 信息 。 它 显示 的 其 他 有 用 信息 还 包括 性 能 一 一 例如 读 / 写 操作 和 延 
迟 。 不 过 ， 性 能 问题 会 在 下 一 节 中 更 详尽 地 探讨 。 


让 我 们 来 看 一 看 输出 结果 的 一 些 例 子 ， 首 先是 一 个 全 群集 的 视图 。 图 10-18 显 示 的 输出 结果 来 目 一 个 8 节点 的 VSAN 1.0 群 
集 ， 为 了 方便 阅读 我 们 做 了 删节 ， 移 除了 后 5 台 主 机 的 输出 。 


/mia-cg07-vc0l/mia-cg07-dc0l/computers> vsan.disks stats 0 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 ~ 一 一 ~ 一 一 ~ 一 一 ~~ 一 ~~ 一 ~ 一 一- 十 一 一 一 一 一 一 一 十 一 一 一 一 一 ~ 二 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 ~ 十 一 一 一 一 一 一 一 一 一 一 十 
| | ium Capacity Device 
DisplayName j [ T ( Reserved Latencies 

————————————————— 
.500253B85a00c5085 | mia-cg07-esxÜ011l.vmwcs.com | 83.47 GB w Od/Oq/Ok 
.5000c5006900c7cf | mia-cg07-esxÜ0ll.vmwcs. M 1117.75 GB w 0d/0q/0k 

二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 十 
.50025385a00c5084 | mia-cg07-esx012.vmwcs.com SSD | 0 83.47 GB IOS% | 0% w Od/Oq/O0k 
.5000c500690142df | mia-cg07-esx012.vmwcs. M 1117.75 GB ; Od/0q/O0k 

R------2-2-22222222222222-24--2222222222-22222222222222224-2-22222-24-2-2-2-2-- pae... + 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 R------- 十 一 一 一 一 一 一 一 一 一 一 二 
.50025385a00a376a | mia-cg07-esx013.vmwcs.com 83.47 GB d Od/Oq/Ok 
.5000c50067d8d9f7 | mia-cg07-esx013.vmwcs. M 1117.75 GB w 0d/0q/0kxk 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 R---------2--- 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 十 





图 10-18 vsan.disk_stats 的 输出 结 


可 以 看 出 组 件 的 分 布 相对 统一 ， 横 跨 了 群集 中 的 所 有 主机 和 所 有 磁盘 。V3SAN 目 己 的 初始 放置 算法 控制 着 这 一 切 。 它 会 列 出 
每 一 台 主 机 、 主 机 上 的 每 一 容量 层 设备 和 缓 仓 层 设备 以 及 组 件 计数 器 、 容 量 和 各 种 性 能 计数 器 。 除 了 可 以 对 群集 运行 这 条 命令 
外 ， 我 们 还 可 以 对 某 谷 主机 来 运行 这 条 命令 (通过 进入 到 主机 对 象 上 ) ， 但 是 这 不 会 显示 更 多 额外 的 信息 。 


VSAN 后 续 版 本 的 输出 结果 稍 有 不 同 。 上 有 具体 来 总， 之 后 的 版 本 中 这 条 命令 的 输出 还 包括 磁盘 格式 版 本 (on-disk format 
version) , TEVSAN 1.0 中 是 版 本 1， 使 用 VMFS-L。VSAN 6.0 中 on-disk 磁 盘 格式 为 版 本 2， 采 用 VirstoFS。 而 在 VSAN 6.2 中 ， 
随 着 去 重 和 压缩 的 引入 ，on-disk 磁 盘 格式 进化 到 了 版 本 3。 


disks stats 这 条 命令 对 于 验证 群集 是 否 均衡 极其 有 用 。 这 就 是 VMware 在 其 最 佳 实践 中 强烈 建议 将 VSAN 和 群集 中 的 ESXi 主 机 
配置 成 完全 一 致 的 原因 。 这 可 以 将 组 件 最 优 地 均衡 分 布 到 群集 中 的 所 有 组 件 和 容量 层 磁 盘 上 去 。 如 果 在 一 组 不 同 的 ESXi 主 机 和 设 
备 上 组 建 VSAN 和 群集 ， 残 可 能 导致 一 个 不 均衡 的 VSAN 群 集 ， 这 样 其 中 某 些 主机 的 负担 惑 可 能 比 其 他 重 ， 并 可 能 会 引起 性 能 问 


日 
ii, 


最 后 这 条 统计 信息 命令 是 vsan.vm_perf_stats。 当 将 某 台 虚拟 机 作为 一 个 参数 来 运行 这 条 命令 时 ， 它 会 提供 每 台 虚 拟 机 的 每 
秒 输入 /输出 操作 数 (IOPS) 、 吞 吐 量 和 延 时 信息 。 这 对 于 调查 特定 单 台 虚拟 机 的 性 能 问题 极为 有 用 。 这 条 命令 会 收集 2 组 性 能 
言 息 ， 每 隔 20 秒 一 次 。 然 后 输出 样本 时 间 段 内 的 性 能 平均 值 。 不 过 ，VSAN 通 过 VSAN 6.2 的 性 能 服务 或 VSAN Observer T Eit 
供 了 一 个 查看 性 能 信息 的 更 好 方法 ， 后 面 马 上 就 会 详细 介绍 它们 。 


resync.dashboard 


resync.dashboard 是 条 非常 有 用 的 命令 ， 用 它 可 以 检查 VSAN 中 的 存储 对 象 的 重新 同步 状态 以 及 同步 的 速度 有 多 快 (尽管 
vSphere Web 客 尸 端 用 尸 界 面 中 也 提供 了 一 个 视图 可 以 查看 ) 。 很 多 情况 下 会 友 生 重 新 同步 ， 包 括 友 生 了 主机 故障 需要 在 群集 
中 其 他 地 方 重建 (存储) 组件 ,或 者 的 确 友 生 了 策略 变更 需要 重新 创建 一 个 新 的 对 象 并 和 老 的 对 象 同 步 。 还 记得 吗 ? 对 虚拟 机 存 
储 策略 的 变更 是 可 以 在 线 进行 的 。 此 时 新 的 存储 布局 要 求 的 新 副本 被 创建 出 来 并 和 原先 已 存在 的 组 件 进行 同步 。 当 同步 完成 时 ， 
原先 的 组 件 束 会 被 丢人 草 。 所 有 这 些 都 友 生 在 虚拟 机 开机 并 持续 运行 着 的 同时 。 


vsan.resync_dashboard 命 令 是 在 RVC 中 对 群集 对 象 友 起 的 。 它 会 显示 所 有 正在 重新 同步 的 对 象 ， 并 会 显示 还 在 等 待 同步 的 


剩余 的 字 世 数 。 下 面 的 例子 来 目 于 我 们 的 一 个 群集 ， 这 里 我 们 将 一 人 台 主 机 置 于 维护 模式 并 请 求 进行 完全 数据 迁移 ， 这 意味 着 
VSAN 需 要 将 进入 维护 模式 的 那 台 主机 上 的 所 有 组 件 和 对 象 都 迁移 到 群集 中 的 另外 一 合 ESXi 主 机 上 。 在 图 10-19 中 ， 我 们 可 以 看 
见 一 个 对 象 正 在 被 同步 并 还 剩 下 0.18GB 字 节 的 数据 等 待 同步 。 


2014-02-10 12:02:47 40000: Querying all VMs on VSAN ... 
2014-02-10 12:02:47 40000: Querying all objects in the system ... 
2014-02-10 12:02:48 +0000: Got all the info, computing table ... 


站 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 站 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 直 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


| VM/Object | Syncing objects Bytes to sync | 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 4 


| vm-ftrt-of-1-sw-of-2 | 


[(vsanDatastore] vm-ftt-of-1-sw-of-2.vmx | 





图 10-19  vsan.resync dashboard $7 47 h 25 Æ 
enter maintenance mode 


可 以 用 enter_maintenance_mode 命 令 来 将 参与 VSAN 群 集 的 ESXi 主 机 置 入 维护 模式 。 关 于 维护 模式 可 用 选项 的 更 多 信息 
请 参考 第 7 章 。 


ldpnetmap 


对 于 网 络 问题 的 诊断 和 排 错 ，lldpnetmap 是 一 个 极为 有 用 的 RVC 命 令 。 链 路 层 友 现 协 议 (LLDP，Link Layer Discovery 
Protocol) 是 一 个 供应 两 中 立 的 链 路 层 协 议 ， 它 被 网 络 设 备用 来 广播 自己 的 能 力 。 对 于 熟悉 思科 CDP (Cisco Discovery 
Protocol) 的 管理 员 来 说 ， 这 是 一 个 和 供应 商 无 关 的 中 了 立 的 等 价 的 协议 。 对 VSAN 群 集运 行 这 条 命令 ， 可 以 显示 群集 中 所 有 主机 
的 LLDP 信 息 (如 果 它 们 存在 的 话 ) 。 下 面 是 一 个 4 世 点 群集 的 输出 结果 ， 显 示 了 哪些 上 行 链 路 连接 到 了 哪个 交换 机 。 这 个 例子 里 
面 各 台 主 机 的 所 有 上 行 链 路 都 连接 到 了 同一 台 主 机 。 


/vcsa-05/Datacenter/computers» vsan.lldpnetmap 0 


2015-12-29 13:22:40 +0000: This operation will take 30-60 seconds 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 Rp---------------2--2--------------------- 十 
| Host | LLDP info | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| esxi-b-pref.rainpole.com | 04f8b1566a8651: vmnic2,vmnicl,vmnicO0 | 
| esxi-c-scnd.rainpole.com | 04f8bl566a8651: vmnic2,vmnicl,vmnicO | 
| esxi-d-scnd.rainpole.com | 04f8bl566a8651: vmnic2,vmnicl,vmnic0 | 
| esxi-a-pref.rainpole.com | 04f8b1566a8651: vmnic2,vmnicl,vmnic0 | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


apply license to cluster 


apply_license_to_cluster 是 另 一 条 简单 的 RVC 命 令 ， 可 以 用 它 来 给 VSAN 群 集 添 加 许可 证 一 一 如 果 你 不 想 通 过 vSphere 
Web 客 户 新 的 话 。 它 有 一 个 选项 --license-key。 


check limits 


当 VSAN 群 集中 虚拟 机 数量 较 大 的 时 候 ， 除 了 vsan.check_state 之 外 ， 我 们 建议 定期 运行 check_limits 命 令 。 在 本 书 的 很 前 
面 需求 一 章 中 ， 我 们 讨论 过 VSAN 的 很 多 限制 条 件 。 其 中 之 一 就 是 在 VSAN 和 群集 中 的 一 人 台 ESXi 主 机 上 可 以 存在 的 组 件数 量 。 最 初 
的 VSAN 发 布 版 本 这 个 数量 是 3000， 不 过 在 VSAN 6.0 中 增加 到 了 9000。 图 10-20 中 的 vsan.check_limits 命 令 的 输出 结果 是 取 自 
VSAN 1.0 的 ， 同 时 显示 了 现存 的 组 件数 量 和 数量 限制 。VSAN 的 另 一 个 限制 是 每 台 主 机 上 的 RDP (可 靠 数据 报 协 议 ) 可 以 承载 
的 接口 连接 数 (number of socket connections) ， 这 个 信息 和 当前 在 用 的 接口 总 数 一 起 在 结果 中 显示 出 来 。 出 于 更 佳 的 阅读 
体验 考虑 ， 我 们 对 此 条 命令 的 输出 结果 进行 了 删 书 。 


注意 ， 此 输出 结果 也 是 在 VSAN 1.0 版 本 下 摘录 的 ， 显 示 出 来 的 很 多 限制 值 已 经 在 后 续 的 VSAN 版 本 中 被 大 幅 提 升 了 。 在 你 
现 有 版 本 的 VSAN 中 运行 这 条 命令 应 该 显示 新 的 数值 。 而 且 可 以 预见 这 些 限制 值 在 今后 更 新 的 VSAN 版 本 中 还 会 继续 提升 。 


/mia-cg07-vcO0l/mia-cg07-dc0l/computers» vsan.check limits 0 

2014-02-08 13:10:41 +0000: Gathering stats from all hosts ... 

2014-02-08 13:10:43 +0000: Gathering disks info ... 

2014-02-08 13:10:43 +0000: Fetching VSAN disk info from «hosts» (may take a moment) 


| mia-cg07-esxOÜ0ll.vmwcs.com | Assocs: 13/20000 | Components: 6/3000 | 
| | Sockets: 15/10000 | naa.5000c5006900c7cf: 0$ | 
| | Clients: 0 | naa.50025385a00c5085: 0$ | 


| | Owners: 2 | | 


| mia-cg07-esx012.vmwcs.com | Assocs: 5/20000 | Components: 4/3000 | 
| | Sockets: 7/10000 | naa.50025385a00c5084: 0 | 
| | Clients: 0 | naa.5000c500690142df: 3$* | 


| | Owners: 0 | | 
| mia-cg07-esx013.vmwcs.com | Assocs: 16/20000 | Components: 5/3000 | 
| | Sockets: 14/10000 | naa.5000c50067d8d9f7: 3% | 
| | Clients: 0 | naa.50025385a00a376a: 05$ | 


| | Owners: 2 | | 





图 10-20 ”vsan.check_limits 的 输出 结果 
reapply vsan vmknic config 


reapply vsan vmknic config 命 令 在 ESXi 主 机 的 某 个 特定 的 VMkernel 网 卡 上 重新 配置 VSAN 网 络 。 当 物理 网 络 层面 发 生变 
化 并 需要 VSAN 网 络 识别 出 这 些 变化 的 时 候 ， 这 条 命令 融和 很 有 有 用。 示例 10-26 的 输出 显示 的 是 输入 命令 后 的 结果 : 


示例 10-26 vsan.reapply vsan vmknic config 


/vcsa-05/Datacenter/computers/Cluster/hosts» ls 


0 esxi-b-pref.rainpole.com (host cpu 2*8*2.40 GHz, memory 102.00 GB 


host cpu 2*8*2.40 GHz, memory 102.00 GB 


cpu 2*8*2.40 GHz, memory 102.00 GB 


2 esxi-d-scnd.rainpole.com 


( ) 
1 esxi-c-scnd.rainpole.com (host): cpu 2*8*2.40 GHz, memory 102.00 GB 
( ) 
(host) 


3 esxi-a-pref.rainpole.com 


/vcsa-05/Datacenter/computers/Cluster/hosts» vsan.reapply vsan vmknic 
config 0 


Host: esxi-b-pref.rainpole.com 

Reapplying config of vmk2: 
AgentGroupMulticastAddress: 224.2.3.4 
AgentGroupMulticastPort: 23451 
IPPYODoGOL: IP 
InterfaceUUID: a5227456-06dc-f09d-3390-ecf4bbd58600 
MasterGroupMulticastAddress: 224.1.2.3 
MasterGroupMulticastPort: 12345 
MulticastrITLe 3 

Unbinding VSAN from vmknic vmk2 

Rebinding VSAN to vmknic vmk2 


recover spbm 


假设 你 失去 了 管理 VSAN 群 集 的 vCenter Server， 在 部 署 一 台新 的 vCenter Server 后 ， 剩 下 的 任务 是 如 何 重建 虚拟 机 存储 策 
略 。 但 是 怎样 才能 找 回 曾 经 的 策略 设置 呢 ? recover spbm 命 令 真 的 可 以 帮 到 你 。 


首先 ， 它 可 以 显示 VSAN 上 的 哪些 虚拟 机 没有 配置 策略 。 这 人 句 话 的 意思 是 这 些 虚 拟 机 的 策略 没有 在 vCenter 中 定义 过 。 在 可 
能 的 情况 下 ， 虚 拟 机 会 继续 遵照 它们 原本 的 策略 设置 ， 即 使 vYCenter Server 不 再 可 用 。 一 旦 这 些 虚 拟 机 (它们 运行 着 vCencer 中 
不 存在 的 策略 ) 被 recover spbm 命 令 所 发 现 ， 你 束 可 以 用 一 些 命令 选项 来 恢复 它们 。 如 示例 10-27 所 示 。 


示例 10-27 vsan.recover spbm 


/vcsa-05/Datacenter/computers/Cluster/hosts» vsan.recover spbm 0 
2015-12-29 13:32:30 40000: Fetching Host info 

2015-12-29 13:32:30 +0000: Fetching Datastore info 

2015-12-29 13:32:30 +0000: Fetching VM properties 

2015-12-29 13:32:30 +0000: Fetching policies used on VSAN from CMMDS 
2015-12-29 13:32:30 +0000: Fetching SPBM profiles 

2015-12-29 13:32:30 +0000: Fetching VM <-> SPBM profile association 
2015-12-29 13:32:30 +0000: Computing which VMs do not have a SPBM Profile 
2015-12-29 13:32:30 +0000: Fetching additional info about some VMs 
2015-12-29 13:32:30 +0000: Got all info, computing after 0.68 sec 
2015-12-29 13:32:30 +0000: Done computing 

SPBM Profiles used by VSAN: 


R----------2--2-2--2-2-2-2-2-2-2--------------- +----------------------------- + 
| SPBM ID | policy | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| Existing SPBM Profile: | stripeWidth: 2 | 
| R5+SW=2 | hostFailuresToTolerate: 1 | 


| | replicaPreference: Capacity | 
R------------2--2-2--2--2-2--2--2------------ R------------2-----2-----2------- 十 
| Existing SPBM Profile: | stripeWidth: 1 | 
| R5-*SW-2 | proportionalCapacity: 0 | 
| | hostFailuresToTolerate: 1 | 
| | replicaPreference: Capacity | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Existing SPBM Profile: | stripeWidth: 1 | 
| Virtual SAN Default Storage Policy | cacheReservation: 0 | 
| | proportionalCapacity: O0 | 


| | hostFailuresToTolerate: 1 


| | forceProvisioning: 0 | 


十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
| Existing SPBM Profile: | hostFailuresToTolerate: 1 | 
| R5 | replicaPreference: Capacity | 
qp------------------------2------------ 4----------------2-2----2-------- 十 
| Existing SPBM Profile: | stripeWidth: 1 | 
| R5 | proportionalCapacity: O0 | 


| | hostFailuresToTolerate: 1 | 
| | replicaPreference: Capacity | 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


在 前 面 的 输出 结果 中 ， 没 有 虚拟 机 是 运行 在 未 定义 的 策略 之 下 。vCenter Server 拥 有 一 个 完整 的 被 所 有 虚拟 机 使 用 着 的 策略 
列表 。 还 存在 很 多 额外 的 命令 选项 ， 例 如 查看 丢失 策略 的 细节 、 重 建 丢 失 的 策略 ， 以 及 自动 关联 策略 和 虚拟 机 。 当 真 的 发生 
vCenter Server 故 障 或 有 需要 将 VSAN 迁 移 到 一 台新 的 vCenter Server 时 ， 这 是 一 条 非常 有 用 的 RVC 命 令 。 


upgrade status 


这 条 命令 是 VSAN 6.0 友 布 时 新 加 入 RVC 的 。 在 把 on-disk 磁 盘 格 式 从 版 本 2 升级 到 版 本 3 的 过 程 中 会 有 很 多 步骤 。 首 先 VSAN 
会 重新 把 对 象 和 组 件 按 1MB 的 地 址 空间 进行 对 齐 。 接 着 ，VSAN 会 将 vsanSparse 对 象 按照 4 对 齐 。 这 些 步 又 可 能 会 伦 费 相当 长 
的 时 间 ， 并 且 在 图 形 界面 中 长 时 间 停留 在 10% 的 地 方 ， 因 此 为 了 给 管理 员 提 供 一 个 对 齐 和 转换 过 程 的 视图 ， 这 条 命令 被 添加 了 进 
来 。 当 对 象 对 齐 完 成 时 ， 命 令 会 显示 哪 尝 组 件 裤 重建 并 重新 同步 过 (这 是 由 于 磁盘 组 被 清空 并 以 新 的 磁盘 格式 进行 格式 化 ) o F 


面 的 例子 显示 的 是 每 60s 刷 新 一 次 的 状态 输出 (〈 仪 截取 一 小 段 ) : 


/vcsa-05/Datacenter/computers/Cluster/hosts» vsan.upgrade status -r 60 0 
2016-03-24 19:18:29 +0000: Upgrade in progress - 15$ 

2016-03-24 19:18:30 +0000: Updating objects to alignment 

2016-03-24 19:18:30 +0000: 0 objects in which need realignment process 
2016-03-24 19:18:30 +0000: 49 objects with new alignment 

2016-03-24 19:18:30 +0000: 0 objects ready for v3 features 


2016-03-24 19:18:30 +0000: Upgrade invovles resyncing objects at times, showing 
current resync progress 


2016-03-24 19:18:31 +0000: Querying all VMs on VSAN 
2016-03-24 19:18:31 +0000: Querying all objects in the system from 10.160.54.54 


2016-03-24 19:18:31 +0000: Got all the info, computing table 


10.3.2 SPBM 命 令 


在 RVC 中 另外 一 组 非常 有 用 的 命令 是 SPBM (基于 存储 策略 的 绾 理 ) 命令 。 可 以 想象 ， 这 些 是 作用 于 存储 策略 的 非常 有 用 的 


HD X o 
示例 10-28 的 输出 结果 显示 的 是 这 些 命令 列表 ， 其 中 大 多 数 相当 直接 。 


示例 10-28 help spbm 


> help spbm 

Commands : 

check compliance: Check compliance 

device add disk: Add a hard drive to a virtual machine 

device change storage profile: Change storage profile of a virtual disk 


namespace change storage profile: Change storage profile of VM namespace 


profile apply: Apply a VM Storage Profile. Pushed profile content to 
Storage system 


profile create: Create a VM Storage Profile 
profile delete: Delete a VM Storage Profile 
profile modify: Create a VM Storage Profile 


vm change storage profile: Change storage profile of VM namespace and its 
disks 


TO see commands in a namespace: help namespace name 


To see detailed help for a command: help namespace name.command name 


在 VSAN 中 ， 还 有 很 多 可 用 于 检查 SPBM 设 置 的 RVC 命 令 。 现 在 ， 你 知道 要 在 VSAN 上 部 署 一 台 虚 拟 机 ， 必 须 先 给 虚拟 机 创 
建 一 个 虚拟 机 存储 策略 ， 它 可 以 用 来 定义 虚拟 机 磁盘 的 镜像 副本 的 数量 (允许 的 故障 数 ) 或 VMDK 的 条 带宽 度 。SPBM 是 控制 
VSAN 这 个 方面 的 底层 技术 。 下 面 让 我 们 来 看 一 下 RVC 中 的 SPBM 扩 展 。 


首先 来 看 一 看 SPBM 扩 展 ， 在 最 新 版 的 RVC 中 一 共有 9 个 ， 它 们 的 名 字 字 面 意 思 直 日 ， 相 当 易 于 理解 : 


spbm.check compliance 
Spbm.device add disk 
Spbm.device change storage profile 
Spbm.namespace change storage profile 
sSpbm.profile apply 

spbm.profile create 

Spbm.profile delete 

Spbm.profile modify 


spbm.vm change storage profile 


如 果 你 在 RVC 中 导航 到 一 人 台 虚 拟 机 ， 融 可 以 对 单个 虚拟 机 或 设备 使 用 这 些 合 令 。 让 我 们 来 看 一 些 例 子 。 在 示例 10-29 中 ， 首 
先 我 要 查 的 是 一 台 名 叫 win1 的 特定 虚拟 机 的 合 规 性 。 


示例 10-29 spbm.check compliance 


/vcsa-05/Datacenter» ls 

0 storage/ 

1 computers [host]/ 

2 networks [network]/ 

3 datastores [datastore]/ 

4 vms [vm]/ 
/vcsa-05/Datacenter» cd 4 
/vcsa-05/Datacenter/vms» ls 
0 R5: poweredOff 
1 R5-SW-2: poweredOff 
/vcsa-05/Datacenter/vms» spbm.check compliance 0 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 二 
| VM/Virtual Disk | Profile | Compliance | 
+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 


| R5 | R5 | compliant | 


| Hard disk 1 | R5 | compliant | 


+ 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 


Number of 'compliant' entities: 2 


/vcsa-05/Datacenter/vms» 


下 一 步 是 应 用 一 个 新 的 配置 文件 。 这 个 配置 文件 可 以 在 ~/storage/vmprofiles 下 找到 。 在 示例 10-30 中 ， 我 们 有 2 个 可 用 的 
配置 文件 : 


示例 10-30 ”通过 RVC 显 示 策 略 


/vcsa-05/Datacenter/storage» ls 

0 vmprofiles/ 
/vcsa-05/Datacenter/storage» ls 0 

0 Virtual SAN Default Storage Policy 
1 VVol No Requirements Policy 

2 R5-SW-2 

3 R5 


/vcsa-05/Datacenter/storage» 


现在 我 们 要 用 spbm.vm_change storage _profile 命 令 把 其 中 一 台 虚 拟 机 的 配置 文件 从 R5 (RAID-5) 更 改 为 
R5+SW=2 (RAID-5 且 磁盘 对 象 的 带 数 =2) ， 如 示例 10-31 所 示 : 


示例 10-31 spbm.vm change storage profile 


vcsa-05/Datacenter/vms» ls 
0 R5: poweredOff 
1 R5-SW-2: poweredOff 


/vcsa-05/Datacenter/vms» spbm.vm change storage profile 0 -p ../storage/ 
vmprofiles/R5-SW-2/ 


ReconfigVM R5: success 


当然 ， 重 新 配置 需要 化 一 点 时 间 。 通 过 输入 spbm.check_ complianceap, TAMASESE PEANN SR SORT CR S SE E 
拟 机 的 硬盘 1 的 状态 现在 变 成 了 noncompliant (不 合 规 ) ， 如 示例 10-32 所 示 : 


示例 10-32 spbm.check compliance 


/vcsa-05/Datacenter/vms» spbm.check compliance 0 


二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 
| VM/Virtual Disk | Profile | Compliance | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 十 
| R5 | R5+SW=2 | compliant | 
| Hard disk 1 | R5+SW=2 | compliant | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 + 


Number of 'compliant' entities: 2 


/vcsa-05/Datacenter/vms» 


当然 ,我 们 还 可 以 用 非常 有 用 的 vsan.resync_dashboard 命 令 来 查看 当 重 新 配置 进行 的 时 人 息 ， 还 有 多 少数 据 仍然 在 同步 中 。 
可 以 重复 运行 这 个 命令 ， 当 Bytes To Sync 变 成 0 时， 所 有 内 容 丈 都 同步 完了 。 我 相信 你 会 同意 ， 这 条 命令 相当 有 用 。 


最 后 说 一 句 : 如 果 你 想 使 用 的 SPBM 命 令 必须 要 以 一 个 “设备 ”作为 参数 ， 你 必须 使 用 在 ~/vms/<VM >/device/ 中 找到 的 
磁盘 设备 。 


10.4 ”在 ESXi 上 对 VSAN 进 行 诊断 排 错 


到 目前 为 止 ， 我 们 已 经 介绍 了 很 多 以 群集 为 中 心 的 工具 ， 例 如 RVC 工 具 。 尽 管 我 们 的 确 讨论 过 一 些 可 以 给 管理 员 在 ESXi 主 机 
上 使 用 的 ESXCLI 命 令 行 ， 你 还 需要 知道 去 哪里 才能 找到 错误 信息 和 日 志文 件 。 本 节 会 特别 关注 要 监控 的 日 志文 件 ， 以 及 你 可 能 
会 用 到 的 诊断 VSAN 的 其 他 一 些 工 具 。 


10.4.1 日 志文 件 


你 可 以 在 ESXi 主 机 的 以 下 位 置 找到 VSAN 日 志文 件 ， 如 表 10-1 所 示 。 


表 10-1 VSAN 日 志文 件 的 位 置 


日 志文 件 摘 述 日 志文 件 位 置 
CLOM (和 群集 级 别 对 象 管理 需 日 志和) /var/log/clomd.log 
OSFS (作为 一 个 文件 系统 ， 代 表 VSAN 对 象 存储 ) /var/log/osfsd.log 


/var/log/hostd.log 


vCenter/ESXi 通信 /var/log/vpxa.log 


VSAN 供应 商 提供 需 /var/log/vsan/vpd.log 
/var/log/vmkernel.log 
ESXi 日 志 /var/log/vobd.log 


/var/log/vmkwarning.log 


你 还 可 以 针对 VSAN 的 主要 软件 组 件 例 如 LSOM、RDT、DOM 和 PLOG 来 搜寻 参考 信息 。GSS (VMware 全 球 支持 服务 ) 建 
议 在 对 VSAN 问 题 进行 排 错 的 时 候 ， 先 搜索 VMkernel 的 日 志文 件 ， 来 找到 含有 这 些 关 键 字 的 项 。 如 果 你 不 熟悉 这 些 软 件 组 件 ， 
请 重读 第 5 章 ， 其 中 提供 了 这 些 软件 组 件 及 其 扮演 的 角色 的 详细 信息 。 


10.4.2 VSAN Trace 工具 


我 们 曾 在 本 章 的 ESXCLI 一 节 简 要 提起 过 trace 工 具 。VSAN 使 用 一 种 压缩 的 二 进 制 trace 格 式 来 记录 每 个 |/O 的 多 条 日 志 消 
息 。trace 和 存放 在 /var/log/vsantraces/ 目 录 下 。 这 些 trace 不 是 人 类 可 读 民 的 格式 ， 在 查看 前 必须 先 释放 出 来 。 要 解码 VSAN 
trace 成 人 类 可 读 懂 的 “日 志 消 息 ” 格 式 ， 可 以 在 ESXi 主 机 上 运行 以 下 命令 : 


# cd /var/log/vsantraces/ 


# zcat <file>.gz | /usr/lib/vmware/vsan/bin/vsanTraceReader.py > «file».txt 


命令 执行 后 ，<file> .txt 中 会 包 合 trace 的 人 类 可 读 懂 的 格式 。 


内 存 小 于 512GB 的 主机 是 可 以 从 USB/SD 设 备 中 引导 ESXi 镜 像 的 。 对 于 配置 了 大 于 512GB 内 存 的 主机 来 说 ， 必 须 把 ESXi 安 六 
在 本 地 磁盘 或 SATADOM 设 备 上 。 原 因 在 于 当 友 生 严 重 故 障 的 时 候 ，ESXi 会 将 内 存 状 态 dump 下 来 ， 当 内 存 大 于 512GB 
时 ，SD/USB 设 备 没有 足够 的 空间 来 捕获 内 存 状态 ， 因 此 需要 容量 更 大 的 设备 。VMware 全 球 支 持 服务 和 和 VMware 工程 团 队 使 用 
这 个 内 核 dump 信 息 和 相关 的 trace 信 息 来 进行 根本 原因 的 分 析 。 把 ESXi 安 六 到 USB 或 SD 上 的 时 候 ， 请 注意 使 用 的 设备 应 该 至 少 
有 8GB 容 量 。 


10.4.3 VSAN VMkernel 模 块 和 驱动 程序 
ESXi 中 预 置 了 构建 VSAN 群 集 需要 的 所 有 组 件 ， 无 须 额外 将 VIB 或 软件 组 件 添加 到 主机 ， 就 可 以 成 功 创建 一 个 VSAN 群 集 并 
构建 起 一 个 可 横向 扩展 的 VSAN 数 据 存 储 。 


VSAN 成 功 配置 后 ， 你 会 观察 到 新 的 VMkernel 模 块 被 加 载 进 来 ， 用 来 进行 VSAN 的 实施 。 这 些 VMkernel 模 块 的 名 字 是 


vsan、rdt、plog 和 lsomcommon。 


当 虚 拟 机 进行 写 操 作 时 ， 写 会 先进 入 SSD， 随 后 VSAN 会 有 规律 地 将 SSD 中 的 内 容 回 写 到 磁盘 中 。plog 模 块 实现 了 VSAN 的 
电梯 算法 ， 它 会 检查 磁盘 的 物理 布局 并 决定 何 时 将 SSD 中 的 内 容 冲 刷 进 磁盘 。 


vsan 模 块 可 馈 认 为 是 同时 用 于 LSOM 和 和 DOM 组 件 的 模块 ， 因 为 这 些 模块 相互 交织 在 一 起 ，lsomcommon 也 包含 这 些 组 件 
的 共享 代码 。 尽 管 企 VSAN 6.0 和 之 后 的 版 本 中 ， 这 些 模 块 被 独立 出 来 ，lsom 现 在 也 有 其 自己 的 模块 。 


rdt 模 块 即 可 靠 数据 报 传 输 (Reliable Datagram Transport) 模块 ， 它 负责 跨 群 集 的 VSAN 通 信 。 


10.5 ”性 能 监控 


管理 仓储 的 最 重要 的 一 个 方面 是 要 有 能 力 进行 监控 并 对 性 能 问题 进行 诊断 和 排 销 。VSAN 也 一 样 。 本 蕊 我 们 将 与 你 分 享 
vSphere 管 理 员 可 以 用 来 监控 并 对 VSAN 性 能 相关 问题 进行 排 错 的 各 种 工具 。 


10.5.1. 性 能 服务 简介 


VSAN 6.2 解 决 了 原先 无 法 对 VSAN 的 各 个 部 分 进行 性 能 诊断 的 问题 。 通 过 VSAN 6.2 的 新 的 性 能 服务 (performance 
service) ， 管 理 员 现 在 可 以 深入 到 VSAN 和 群集 的 各 个 不 同 部 分 来 检查 底层 的 性 能 。 管 理 员 现 在 可 以 知道 VSAN 和 群集 中 的 主机 、 磁 
盘 组 、 单 个 磁盘 或 虚拟 机 各 自 的 性 能 到 底 如 何 。 


性 能 服务 的 启用 相当 简单 。 首 先 在 vCenter Server 清 单 中 导航 到 VSAN 群 集 对 象 ， 点 击 Manage (管理 ) 页 ， 然 后 点 击 
Health and Performance (运行 状态 和 性 能 ) ， 性 能 服务 默认 是 不 局 用 的 ， 如 图 10-21 所 示 。 





Performance Service is Turned OFF 


Status Disabled 


Stats object health 
Stats object UUID 
Stats object storage policy 


Compliance status 
图 10-21 性 能 服务 已 停 用 


要 局 用 性 能 服务 ， 点 击 Edit (编辑 ) 按钮 。 当 性 能 服务 局 用 后 ， 一 个 最 大 空间 可 达 225GB 的 虚拟 机 主页 名 字 空 间 对 和 象 丈 在 


VSAN 数 据 存 储 上 被 创建 出 来 。 它 需要 一 个 策略 ， 但 是 会 自动 选择 VSAN 数 据 存储 默认 策略 。 如 果 想 更 改 的 话 ， 管 理 员 可 以 选择 
一 个 不 同 的 策略 。 启 用 后 ， 性 能 服务 看 上 去 束 像 图 10-22 所 示 的 那样 。 


Performance Service is Turned ON 
Status Enabled 


Stats object health © Healthy 
Stats object UUID b6e97756-2406e-1970-5ad1-ecf4bbd59370 


Stats object storage policy EŠ Virtual SAN Default Storage Policy 





Compliance status w Compliant 


图 10-22 ”性 能 服务 被 启用 
现在 性 能 服务 已 被 启用 ， 可 以 开始 查看 VSAN 的 性 能 了 。 
使 用 VSAN 性 能 服务 


VSAN 性 能 服务 被 启用 后 ， 管 理 员 束 可 以 看 见 多 个 天 于 性 能 的 视图 了 ， 它 们 有 : 


虚拟 机 消耗 
VSAN jAi 
主机 性 能 
虚拟 机 消耗 
VSAN jAi 
磁盘 性 能 
磁盘 组 
磁盘 
虚拟 机 
虚拟 机 性 能 
虚拟 机 磁盘 性 能 


要 监控 以 上 这 些 VSAN 性 能 ， 选 择 对 应 的 清单 对 象 (群集 、 主 机 、 虚 拟 机 ) ， 然 后 选择 Monitor (监控 ) 页 ， 表 选择 
Performance (性 能 ) ， 性 能 视图 就 会 出 现 以 供 选 择 了 。 图 10-23 显 示 的 就 是 群集 性 能 视图 的 一 个 例子 ， 虽然 它 取 自 一 个 非常 空 
闪 的 还 未 投入 生产 的 VSAN 系 统 。 
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图 10-23 群集 性 能 虚拟 机 消耗 


性 能 服务 指标 


每 个 视图 都 有 一 组 管理 员 会 党 得 很 有 用 的 指标 ， 包 括 I|OPS、 和 否 吐 量 、Outstanding 10、 延 迟 和 拥堵 。 它 们 都 会 被 从 前 端 
(虚拟 机 工作 负载 的 角度 ) 和 后 端 (VSAN 角 度 ) 两 个 方面 来 检查 。 如 前 所 述 ， 管 理 员 可 以 从 群集 层面 、 主 机 层面 、 磁 盘 组 层 
面 ， 甚 至 是 虚拟 机 的 层面 来 深入 人 研究 性 能 问题 。 


从 每 台 主 机 的 层面 检查 VSAN 后 端 指标 的 时 候 ， 通 过 一 些 计 数 器 可 以 查看 重新 同步 /重建 活动 ， 包 括 重 新 同步 的 |OPS 数 和 重 
新 同步 的 吞吐 量 等 。 


在 磁盘 组 和 磁盘 视图 中 可 以 获得 更 细 粒 度 的 性 能 指标 。 磁 盘 组 视图 中 包括 读 缓冲 命中 率 (对 于 混合 配置 的 系统 来 说 ) 和 关于 
Delayed IO (被 延迟 的 IO) 的 相关 信息 。Delayed IO 是 判断 Outstanding 1O 的 数量 是 否 被 正确 配置 的 一 个 很 好 的 指示 器 ， 尤 其 
是 在 用 作 基 准 测试 的 时 候 。Outstanding 10 应 该 被 调整 成 能 保持 管道 中 所 有 时 间 都 用 足 且 设备 一 直 繁 忙 。 你 肯定 不 希望 10 被 推 
迟 并 一 直 等 待 进入 队列 ， 因 为 这 会 导致 延迟 。 如 果 Delayed 10O 的 百分比 大 于 0%， 就 说 明 有 太 多 的 Outstanding 1O 在 队列 
中 ，Delayed 10 的 平均 延迟 值 告诉 我 们 到 底 有 多 少 Delayed 10 在 增长 。 


如 同 运行 状况 检查 服务 一 样 ， 性 能 服务 也 有 “Ask VMware" 功能 。 若 想 知 道 关 于 这 些 指标 的 任何 进一步 的 信息 ， 只 需 点 
i "Ask VMware" 链接 即 可 。 


10.5.2 用 于 VSAN 的 ESXTOP 性 能 计数 器 


在 VSAN 的 最 初 友 布 版 本 中 ，esxtop 中 没有 专用 于 VSAN 数 据 存储 的 性 能 计数 器 。 在 VSAN 6.0 和 之 后 的 版 本 中 ， 关 于 VSAN 
的 一 些 特定 的 计数 器 被 加 进 了 esxtop 中 。 不 过 ， 除 了 和 VSAN 有 关 的 计数 器 之 外 ， 它 在 ESXi 主 机 上 检查 虚拟 机 活动 、VMDK 性 
能 、 主 机 状态 、 内 和 存 使 用 以 及 磁盘 活动 时 ,仍然 是 一 个 非常 有 用 的 工具 。esxtop 很 容易 使 用 ， 在 ESXi 主 机 的 shell 提 示 符 下 ， 简 
单 地 键入 esxtop 即 可 。 图 10-24 显 示 了 一 些 早期 版 本 中 esxtop 输 出 结果 的 例子 。 
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在 esxtop 运 行 界面 中 输入 h 可 以 访问 帮助 文档 。 
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下 面 这 些 是 可 用 的 选项 
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esxtop 输 出 结果 
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- d: Disk adapter. (磁盘 适配器 ) 

: u: Disk device (磁盘 设备 ) 

- v: Disk VM (EE ÆR dopo) 

: p: Power management (电源 管理 ) 
: x: VSAN 


VSAN 视 图 显示 了 3 个 角色 : client (Pim) . owner ( 属 主 ) 和 component manager (组 件 管理 器 ) 。 这 些 角色 我 们 在 
第 5 章 中 已 经 介绍 过 了 。 在 VSAN 6.0 及 之 后 的 版 本 中 ， 基 于 每 台 主 机 的 每 个 角色 的 MO 统计 数值 有 可 能 被 观察 到 。 在 VSAN 6.2 
中 ， 新 的 性 能 服务 也 能 告诉 你 这 些 信息 。 不 过 ， 我 们 的 确 还 有 一 个 工具 ， 可 以 提供 以 VSAN 为 中 心 的 性 能 统计 信息 ， 它 叫做 
VSAN Observer 工具 。 后 面 我 们 会 作 介绍 。 


10.5.3 用 于 VSAN 的 vSphere Web P iml BETAS 


VSAN 6.2 版 之 前 ，vSphere 客 户 端 没有 针对 VSAN 数 据 人 存储 的 性 能 计数 器 。 如 果 你 在 vCenter Server 清 单 中 导航 到 VSAN 群 
集 对 象 ， 选 择 Monitoring (监控 ) 页 ， 册 选择 Performance (性 能 ) 视图 ， 有 一 个 选项 可 以 更 改 图 表 。 可 以 友 现 这 里 也 没有 任 
何 针对 VSAN 数 据 存 储 的 性 能 图 表 。 


不 过 ,无 论 是 对 虚拟 机 还 是 VM DK，vSphere 客 尸 端 中 的 性 能 视图 都 非常 完美 ， 即 使 该 虚拟 机 是 部 署 在 VSAN 数 据 存 储 上 也 
一 样 。 图 10-25 显 示 的 性 能 信息 视图 里 面 强 调 的 是 VMDK 的 读 写 延迟 。 


(j»no-pol-2 ， Actions ~ 


Summary | Monitor | Manage Related Objects 


Il 
1 











| Issues | Performance | Health | Resource Allocation | Storage Reports | Tasks | Events 
L 1 上 








« Virtual disk/Real-time, 3/21/14 2:01:00 PM GMT - 3/21/14 3:00:20 PM GMT Chart Options 


View: | Virtual disk "n e 四- 


| 


| Li i rM nn | qi 





| 


2:01 PM 2:06 PM 2:11 PM 2:16 PM 2:24 PM 2-26 PM 2:31 PM 2:36 PM 2:41 PM 2:46 PM 2:51 PM 2:56 PM 





Time 

Performance Chart Legend 

Bi scsi1:0 | Read latency | Average | Millisecond | Q0 
go  scsit:1 Read latency Average Millisecond 0 
lg scsi1:2 Read latency Average Millisecond 0 
gb scsi0:0 Read latency Average Millisecond 0 
gb scsi0:0 Write latency Average Millisecond 0 
Bi scsi1:0 | Write latency | Average | Millisecond | o| 
mm | nuni. Misiin mbm assumes — ^ 








KJ10-25 vSphere Web 客 户 端 的 性 能 视图 


如 前 面 在 esxtop 一 节 提 过 的 一 样 ， 除 了 VSAN 6.2 中 新 的 性 能 服务 之 外 VSAN Observer 工具 可 以 用 来 显示 天 于 VSAN 性 能 的 
信息 。 而 且 在 VSAN 6.2 版 本 之 前 ， 的 确 也 只 有 这 一 个 工具 可 以 用 来 查看 VSAN 底 层 的 性 能 。 接 下 来 介绍 这 个 工具 。 


10.5.4 VSAN Observer 


vSphere 5.5 U1 的 vSphere Web 客 户 端 带 有 很 多 内 建 的 VSAN 管 理 功能 。 例 如 ， 你 可 以 在 vSphere Web 客 户 端 中 找到 
VSAN 数 据 仓储 及 其 虚拟 机 层面 的 性 能 统计 信息 。 然 而 ， 如 果 要 得 看 更 深入 的 VSAN 性 能 ， 深 入 物理 磁盘 层面 ， 理 解 缓 仓 命 
率 ， 追 究 观察 到 的 延迟 原因 等 ，vSphere 5.5 U1 的 vSphere Web 客 户 端 就 不 能 提供 这 些 层 面 的 细节 了 ， 在 VSAN 6.2 中 ， 新 的 
VSAN 性 能 服务 应 该 可 以 填补 这 个 空白 ， 但 是 早期 的 VSAN 版 本 中 没有 这 个 功能 ， 这 融 是 VSAN Observer 上 友 挥 作用 的 地 万 了 。 


VSAN Observer 是 用 于 vSphere 管 理 的 交互 式 命令 行 shell 工 具 RVC (Ruby vSphere Console) 的 一 个 组 成 部 分 。RVC 存 在 
于 vSphere 5.5-U1 的 Windows 版 本 的 vCenter Server 和 VCVA (vCenter 虚 拟 设 备 版 本 ) P. 


让 我 们 在 深入 到 VSAN Observer 能 做 什么 之 前 ， 先 介绍 一 下 如 何 部 署 这 个 工具 及 需要 的 前 提 条 件 。 
VSAN Observer 前 提 条 件 


VSAN Observer 是 一 款 性 能 工具 ， 是 特别 开发 出 来 用 于 显示 VSAN 性 能 信息 的 。 它 需要 一 款 现代 的 Web 浏 览 器 和 Interent 
连接 (因为 某 些 开源 软件 组 件 需要 下 载 ) 。 它 还 需要 vCenter Server 5.5 U1 或 更 新 的 版 本 ， 不 管 是 Linux 的 虚拟 设备 版 本 
(VCVA) 还 是 Windows 版 本 都 可 以 。Ruby vSphere Console (RVC) 已 经 在 vCenter Server 5.5U1 中 内 置 了 。 


有 2 种 部 署 方法 : 
: 可 以 使 用 管理 VSAN 和 群集 的 vCentet Sefvet 生 产 环境 中 的 RVC。 
. 可 以 额外 部 署 一 台 vCenhtet Setrvetr， 仅 仅 为 了 使 用 其 中 的 RVC 和 VSAN Observer T. H-; 


在 实验 环境 中 ， 前 者 更 方便 。 管 理 员 需要 知晓 VSAN Observer 开启 了 一 个 不 加 密 的 非 安全 的 HTTP 服 务 器 。 在 生产 环境 
vCenter Server 上 做 这 些 可 能 会 违反 安全 策略 ， 这 就 是 VMware 提供 了 另 一 个 独立 选项 的 原因 。 在 这 种 情况 下 ， 额 外 部 署 一 台 服 
务 器 来 运行 RVC 可 能 是 一 个 更 好 的 方案 。 


运行 Vsan.observer 命 令 并 将 群集 名 作为 一 个 参数 将 会 启动 VSAN Observer。 这 条 命令 会 每 隔 x 秒 从 vCenter Server 和 VSAN 
收集 一 次 统计 信息 。 用 于 收集 统计 信息 的 默认 的 间隔 是 60 秒 ， 不 过 你 也 可 以 自己 通过 --interval 参 数 设 置 一 个 更 小 或 更 大 的 值 。 


当前 它 将 连续 收集 2 个 小 时 的 信息 。 


通常 ， 我 们 会 和 -run-webserver 选 项 一 起 运行 这 条 命令 ， 它 会 在 8010 呆 口上 开局 一 个 不 加 密 的 HTTP Web 服 务 器 。 可 以 通 
过 --port 选 项 来 更 改 端口 号 。 因 为 之 前 我 们 已 经 介绍 过 如 何在 一 个 Windows 版 本 的 vCenter Server 上 开启 RVC， 现 在 让 我 们 来 
看 看 在 vCenter Server 的 Linux 虚 拟 设备 版 本 (VCVA) 上 让 RVC 运 行 起 来 的 步骤 (这 也 会 启动 VSAN Observer) : 


1. 在 vCenter Server 虚 拟 设备 上 开启 一 个 SSH 会 话 : 


ssh root@<name or ip of your VCVA> 
2. 使 用 root 账 号 和 vCenter 名 局 动 RVC， 例 如 : 


VC rootalocalhost 


3. 现 在 ， 用 cd 命令 进入 到 vCenter 对 象 下 (每 一 层 下 都 可 以 用 |s 来 查看 对 象 名 字 ) 。 如 果 按 <tab> 键 ， 它 会 补 完 数据 中 心 对 
象 的 名 字 : 


cd localhost/«Name-of-your-datacenter» / 
4. 现 在 再 用 一 次 cd 命令 。 第 一 个 对 象 是 computers， 第 二 个 则 是 你 的 群集 名 。 在 我 的 例子 中 如 下 所 示 : 


cd computers/<Name-of-your-VSAN-cluster>/ 


5. 现 在 你 可 以 用 以 下 命令 开启 VSAN Observer 了 : 


vsan.observer . --run-webserver --force 


6. 现 在 你 可 以 看 见 Observer 每 60 秒 会 但 询 一 次 统计 信息 ， 如 前 所 述 ， 你 可 以 按 Ctrl+C 来 终止 之 。 数 据 收集 会 在 2 小 时 后 自动 


完成 这 些 准备 工作 的 步骤 后 ， 现 在 可 以 来 深入 检视 一 下 VSAN 的 性 能 数据 了 。 首先 打 开 一 个 浏览 器 并 指向 http://<rvc-vc- 
ip>:<observer-port>。<rvc-vc-ip> 是 运行 RVC 的 主机 的 IP 地 址 ， 而 不 是 你 要 监控 的 vCenter Server 的 IP 地 址 (尽管 它们 可 能 
是 相同 的 ) 。 端 口 默认 是 8010， 但 是 你 可 能 已 经 用 --port 选 项 更 改过 了 。 我 们 推荐 使 用 Google Chrome, MHETRE SE 
Maza. Internet Explorer 8 不 能 算是 一 个 当代 浏览 器 ， 但 是 某 种 程度 上 也 还 能 用 。 更 早 版 本 的 |E 肯 定 会 出 问题 。 


图 10-26 显 示 的 是 首次 打开 VSAN Observer 时 的 页 面 。 


你 还 可 以 要 求生 成 一 个 统计 信息 包 ， 这 是 一 个 较 小 的 归档 文件 ， 其 中 包含 有 Web 浏 览 器 显示 的 同样 信息 ， 你 可 以 下 载 保 
人 存 、email 给 同事 或 email 给 VMware 文 持 人 员 。 命 令 行 如 下 : 


vsan.observer <cluster> -generate-html-bundle /tmp 


这 条 命令 会 将 统计 信息 打包 放 入 vCenter Server 的 /tmp 目 录 下 。 


这 条 命令 会 持续 运行 ， 直 至 你 按 Ctrl+C 让 它 停 下 为 止 。 注 意 ， 它 会 将 Observer 在 内 存 中 会 话 的 全 部 历史 记录 保留 下 来 直到 
你 按 Ctrl+C 为 止 ， 这 意味 着 如 果 你 连续 运行 几 个 小 时 ， 它 会 吃 掉 几 个 GB 的 内 存 。 这 是 你 可 能 希望 将 VSAN Observer 运行 在 一 台 
专用 的 vCenter Server 上 的 另外 一 个 原因 。 
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图 10-26 VSAN Observer: VSAN 客 户 端 视图 


当 你 第 一 次 打开 VSAN Observer 时 ， 异 弟 问 题 的 主要 指示 器 会 在 问题 的 图 形 下 显示 一 条 红色 的 下 划 线 来 表明 它 已 经 超出 了 
正常 的 操作 边界 。VSAN Observer 中 的 图 像 通常 在 正常 状态 下 会 显示 为 绿色 ， 或 是 在 没有 收集 全 疝 据 或 没有 足够 信息 时 显示 为 
人 灰色。 红色 残 是 需要 开始 调查 的 信号 灯 ， 它 会 在 样本 收集 期 间 有 20% 的 样本 超出 设 定 的 国 值 沁 围 时 显示 出 来 。 


VSAN Observer 的 用 尸 界 面 是 通过 一 个 个 子 系统 组 织 起 来 的 。 你 应 该 先 从 VSAN 客 尸 端 视图 着 手 ， 这 个 视图 会 给 你 一 个 从 


VSAN 收 集 起 来 的 虚拟 机 服务 等 级 的 概 掀 。VSAN 和 群集 中 的 每 台 主 机 (下文 中信 称 为 “VSAN 客 尸 端 ”) 都 在 使 用 着 分 布 在 群集 
中 所 有 其 他 主机 上 的 存储 ， 所 以 在 VSAN 客 户 端 的 主机 A 上 发 现 的 性 能 问题 可 能 事实 上 是 由 于 主机 B 上 的 磁盘 超 负 答 造 成 的 。 


“VSAN 太 盘 ”视图 允许 你 从 磁盘 角度 来 研究 VSAN， 它 通过 研究 如 何 从 本 地 磁盘 提供 I/O 服 务 来 检查 节点 是 如 何 向 VSAN 数 
据 存 储 贡 献 存 储 的。 然后 你 可 以 进一步 一 台 一 从 主机 地 深入 研究 VSAN 的 磁盘 层面 ， 检 查 VSAN 是 如 何在 SSD 和 HDD 之 间 分 配 
I/O 的 。 


图 10-27 显 示 了 VSAN 磁 盘 视 图 。 从 图 中 可 以 看 出 ， 这 里 显示 了 大 量 的 信息 。 这 个 视图 显示 了 所 有 的 内 容 ， 包 括 延 迟 、 
IOPS、 带 宽 、 拥 塞 、 突 出 的 MO 和 延迟 的 标准 差 (说 明了 延迟 偏离 平均 值 的 程度 ) 。 再 说 一 次 ， 你 要 看 的 是 带 有 红色 下 划 线 的 那 
些 图 表 ， 它 们 凸显 出 一 种 反常 状态 ， 是 磁盘 相关 问题 调查 的 切入 点 。 对 于 延迟 ， 阐 值 水 平 被 设 成 了 30 毫 秒 。 带 宽 是 以 每 秒 干 字 
T» (KB/s) 来 衡量 的 。 拥 塞 程度 的 范围 从 1~255，1 意 味 着 无 拥塞 ，255 意 味 着 完全 堵塞 。 拥 塞 的 阅 值 设 在 了 75。 
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图 10-27 VSAN Observer: VSAN 磁 盘 


VSAN 和 ESXiI 的 其 余部 分 共享 计算 资源 ， 也 残 是 咬 ，VSAN 会 消耗 挥 一 小 刻 主 机 的 CPU 和 内 存 资源 ， 而 这 人 台 主 机 上 同时 还 运 
行 着 虚拟 机 。V3SAN 被 设计 成 不 会 消耗 超过 10% 的 主机 CPU 资源 。 你 可 以 通过 Observer 相 天 的 页 面 来 检查 VSAN PCPU (物理 
CPU) 和 内 存 的 消耗 ， 这 或 许 对 于 发 现 因 CPU 或 内 存 限制 而 引起 的 性 能 瓶 纪 有 所 帮助 。 


图 10-28 显 示 了 内 人 消 耗 状 态 ， 其 中 不 仅仅 包括 VSAN 组 件 的 消耗 ， 还 包括 了 其 他 参与 到 VSAN 和 群集 的 各 种 ESXi 主 机 对 内 人 
的 消耗 。 


因为 VSAN 是 一 种 以 虚拟 机 为 中 心 来 管理 的 存储 (针对 每 个 虚拟 磁盘 的 虚拟 机 存储 策略 ) ， 你 也 可 以 在 VSAN Observer 中 
就 每 全 虚拟 机 甚至 是 每 块 虚 拟 磁 盘 的 层面 来 进行 性 能 观测 。 要 这 么 做 ， 在 虚拟 机 主页 选择 你 想 要 获得 更 多 细节 信息 的 那 台 虚拟 机 
即 可 。 


图 10-29 显 示 的 是 一 台 虚 拟 机 的 虚拟 机 主页 (VM Home) 。 对 于 组 成 此 对 稼 的 每 个 组 件 ， 延 迟 、IOPS、 读 缓冲 (RC) 8p 
中 率 和 缓存 清空 等 信息 全 都 显示 在 这 里 。 对 于 可 能 表现 出 性 能 问题 的 特定 虚拟 机 来 说 ， 这 些 优质 的 信息 可 以 用 来 判断 组 成 此 存储 
对 象 的 组 件 是 否 存在 问题 。 清 空 (Evictions) 是 一 种 事实 参考 值 ， 用 来 表示 缓存 中 正 被 从 缓存 刷 入 到 磁盘 的 数据 项 的 状态 ,其 
较 高 的 数值 意味 着 可 能 存在 缓存 源 并 竞 争 ， 上 暗示 闪存 的 大 小 可 能 规划 不 合理 。 读 组 站 命 中 率 也 是 一 个 有 趣 的 图 形 ， 因 为 任何 低 于 
100 的 值 都 说 明和 存在 缓冲 未 命中 ， 从 而 导致 读 取 一 个 数据 块 将 不 得 不 直接 访问 磁盘 来 实现 ， 这 会 增加 延迟 。 
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图 10-28 VSAN Observer: 内 存 


SAN Client 
* VM Home 


DOM Object UUID: 500ded52-3e57-6e3e-109b-0011010700af 


DOM owner: 
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RAID tree 
DOM Owner: mia-cg07-esx015 
RAID_1 
Component 510ded52-3428-57c7-5b48-0011010700af ACTIVE HDD: naa.5000c5006901415b 
SSD: naa.50025385a00c5090 
Host: mia-cg07-esx016 
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Component 510ded52-0fd6-58c7-f562-0011010700af ACTIVE HDD: naa.5000c5006900c7cf 
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Host: mia-cg07-esx011 
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Component — 510ded52-1b41-5ac7-8dfa-0011010700af ACTIVE HDD: naa.5000c5006900c843 
SSD: naa.50025385a00c508e 
Host: mia-cg07-esx015 





图 10-29 VSAN Observer: 虚拟 机 视图 


最 后 但 也 是 非 钊 重要 的 一 点 ， 还 有 一 些 辅助 信息 页 (天 于 群集 均衡 、 对 象 分 布 、 显 震 的 群集 事件 等 ) 。 每 次 你 切换 页 面 ， 
像 都 会 目 动 更 新 以 反映 出 后 台 RVC 收 集 到 的 最 新 数据 。 


大 多 数 页 面 都 包含 如何 解释 图 像 中 展示 的 信息 的 相关 内 容 。 然 而 ， 很 多 信息 还 是 需要 你 熟悉 存储 性 能 的 知识 。 可 以 这 么 说 ， 
你 对 VSAN Observer 工具 用 得 越 多 ， 你 融 越 瓯 悉 伍 样 才能 让 目 己 的 环境 运行 在 稳定 状态 ， 那 么 当 异 单 状况 发 生 需 要 进行 诊断 和 
排 销 的 时 候 ， 这 个 工具 残 越 有 用 。 


如 你 所 想 ， 关 于 能 用 VSAN Observer 来 做 什么 我 们 只 是 泛泛 地 介绍 了 些 皮 毛 而 已 。 
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为 了 更 好 地 演示 VSAN Observer 的 强大 之 处 ， 我 们 找到 了 Simon Todd- VMware 支持 团队 中 VSAN 方 向 的 技术 领军 人 物 
之 一 ， 询 问 他 使 用 VSAN Observer 来 对 VSAN 的 性 能 问题 进行 排 错 的 经 验 。Simon 很 亚 快 地 分 享 了 下 面 这 个 例子 ， 包 括 问题 症 
状 和 根本 原因 。 


Simon 分 享 的 案例 中 的 问题 描述 是 这 样 的 : “在 MO 测试 中 ， 虚 拟 机 很 慢 ， 某 些 虚 拟 机 不 可 访问 ”。 在 问题 被 迅速 确认 之 
后 ， 排 错过 程 始 于 日 志文 件 调 取 。 首 先 ，DOM 汇 报 称 有 一 个 操作 化 费 了 太 多 时 间 (DOMTraceOpTookTooLong) ， 如 图 10- 


30 所 示 。 


2013-12-05T17:21:38.356392 [26141117] [cpu27] [22a870d2 OWNER write] 
DOMTraceOpTookTooLong:2645: ('op': 0x4136c85f78c0, 'obj': Ox412eca2b4c40, 





'objUuid': '58cc9852-d985-9aae-8bd9-0006f62bllec', 'time msec': 103129) 


图 10-30 DOMT'taceOpTookTooLong 


调查 组 还 友 现 LSOM 报 告 了 一 个 非常 高 的 Congestion (拥塞 值 ) 255， 如 图 10-31 所 示 。 


2013-12-05T17:21:35.586223 [27666780] [cpu3] [3184] 
LSOMTraceRcLSOMVAAllocFailure:1055: {'status': 'VMK NO MEMORY') 
2013-12-05T17:21:35.586224 [27666781] [cpu3] [3184] " LSOMTraceRcScanError: 
3332: [('rclPacked': 0x0, 'objectSlot': 14000, 'rclIndex': 0, 'rdt': 0x0, 
'inFlight': 0x0} 

2013-12-05T17:21:35.586224 [27666782] [cpu3] [3184] 
LSOMTraceRcDomCompletion:1461: ('status': 'VMK NO MEMORY', 'time': 
'00:00:00.000003', 'heapCongestion': 0, 'vaCongestion': 0, 'iopsCongestion': 
0, 'congestion': 255) 





图 10-31 Congestion (拥塞 值 ) 高 达 255 


现在 是 时 候 去 VSAN Observer 来 看 看 它 对 定位 日 志文 件 中 上 友 现 的 问题 的 根本 原因 是 否 有 帮助 。 当 VSAN Observer 开局 并 打 
开 VSAN 客 户 端 视图 后 ， 马 上 发 现 系统 存在 显著 的 延迟 问题 ， 如 图 10-32 所 示 。 并 且 和 日 志 中 找到 的 拥塞 报错 一 样 ， 这 里 也 显示 
有 拥塞 问题 。 


这 些 异 常情 况 通 过 红色 的 下 划 线 来 指明 ， 可 以 马上 引起 管理 员 的 注意 。 点 击 图 像 将 其 放大 可 以 显示 进一步 的 细节 。 在 这 个 例 
子 中 ， 我 们 展开 了 其 中 一 个 延迟 的 图 像 ， 关 于 延迟 值 的 进一步 细节 展现 出 来 。 如 图 10-33 所 示 ， 图 像 中 的 读 取 延 迟 值 异常 高 ， 到 
达 了 60000 毫 秒 的 区 间 (或 60 秒 ) 。 


Outstanding IO | 


- - -y — st 
As 可 " 
sti > E - 4 


| 


uL RN I un 


i 
17 
TW 
[i 
i 1 
* 4 
|. 
A 
+ 
DL dad sum 2 
aa 
P 
PW | 
Adii 
UN 
i 
À 
* 


CELERE: YE TRIESTE SII PR EEC Y ERUIT NUT OE EYTE Du A a DEC NY OS 
LI 


Bandwidth 


C Paé^.u alta wm 3m ou a 





* 
È 
| 
La MIR oda. 
4 
) 
4 


图 10-32 ”延迟 问题 





图 10-33 ”延迟 和 IOPS 的 细节 


引起 我 们 注意 的 一 个 事实 是 ，IOPS 值 相对 较 低 ， 但 延迟 值 却 很 高 。 为 什么 会 这 样 ? 还 需要 进一步 进行 研究 。 如 前 所 述 ， 还 
有 其 他 一 些 有 趣 的 VSAN Observer 视图 可 以 看 一 看 。 下 一 个 有 意思 的 视图 就 是 虚拟 机 (视图 ) 。 在 这 个 视图 中 ， 我 们 发 现 某 一 
个 虚拟 机 组 件 存 在 大 量 的 缓存 清空 (cache evictions) ， 再 观察 其 他 虚拟 机 也 发 现 了 类 似 的 表现 。 因 此 ， 看 上 去 延迟 和 拥塞 的 
根本 原因 在 于 闪存 设备 无 法 满足 工作 负载 。 它 需要 经 常 性 地 从 缓存 中 清空 数据 来 为 新 的 数据 块 腾 出 空间 。 如 图 10-34 Eviction 图 
像 中 的 楼 色 峰 值 所 示 。 





图 10-34 Evictions 


于 是 支持 团队 询问 客 尸 ， 在 这 个 环境 中 使 用 了 哪 种 类 型 的 内 存 设备 。 结 果 友 现在 这 个 环境 中 使 用 的 闪存 设备 是 Class AN 
仓 ， 最 高 \OPS 只 有 2500。 每 台 主 机 的 闪存 设 备 都 已 经 被 客户 部 署 的 工作 负载 给 撑 爆 了 ， 这 导 臻 了 大 家 不 希望 看 见 的 结果 。 不 玛 
的 是 ，VMware 支 持 团队 无 法 帮助 这 个 客户 修复 问题 ， 因 为 他 们 使 用 的 是 不 受 VMware 支 持 的 内 存 设备 VMware 不 支持 任何 类 
型 的 Class A 闪存 设备 ) 。 


希望 这 个 实用 案例 能 在 某 种 程度 上 反映 出 VSAN Observer 的 强大 ， 它 不 仪 仅 能 告诉 你 如 何 使 用 它 来 确认 并 贷 ， 还 可 以 用 来 
反映 出 对 于 闪存 设备 类 型 的 选择 会 对 基础 染 构 的 性 能 造成 何 种 影响 。 你 应 该 通过 持续 观察 ， 让 上 自己 熟悉 目 己 的 环境 ， 怎 样 才 算 是 


正常 状态 怎样 算是 不 正常 。 尽 管 当 数 值 超过 辣 值 学 围 时 会 显示 红色 的 下 划 线 来 报警 ， 这 也 在 某 种 程度 上 起 到 了 一 定 的 作用 。 这 个 
实用 案例 应 该 还 能 使 你 理解 正确 规划 VSAN 环 境 的 重要 性 ， 所 以 再 重申 一 次 ， 你 应 该 复习 一 下 第 9 草 ， 以 获得 如 何 正确 规划 
VSAN 群 集 大 小 的 措 导 ， 并 避免 类 似 这 里 讨论 的 问题 在 你 的 环境 中 友 生 。 


10.7 小结 


现在 我 们 可 以 清楚 地 知道 ， 对 VSAN 环 境 的 监控 和 诊断 排 错 有 一 整套 可 用 的 工具 。 我 们 从 很 多 VMware 的 客 己 那里 了 解 到 他 
们 再 也 不 希望 自己 的 存储 是 一 个 “黑匣子 ”一 一 天 于 其 性 能 的 可 见 性 几乎 为 零 。 有 了 这 样 一 套 命令 行 (CL) 的 扩展 包 和 图 像 界 
面 (Ul) 工具， 客户 就 可 以 钻 入 VSAN 操 作 的 底层 来 一 探究 竟 了 。 


